劍橋華人團(tuán)隊(duì)搞出多模態(tài)醫(yī)學(xué)大模型!單個(gè)消費(fèi)級(jí)顯卡就能部署,借鑒斯坦?!秆蝰劇苟鴣?/h1>
已開源
衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
已開源
衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
ChatGPT、AutoGPT能干那么些事,好想知道大模型啥時(shí)候才能看病,救我本人狗命?
帶視覺的多模態(tài)醫(yī)學(xué)基礎(chǔ)大模型,它來啦~
名為Visual Med-Alpaca,官宣即開源。

這個(gè)專為生物醫(yī)學(xué)領(lǐng)域設(shè)計(jì)的基礎(chǔ)模型,構(gòu)建于LLaMa-7B之上,還在一定程度上借鑒了Visual-ChatGPT和Alpaca(羊駝)。
因?yàn)閰?shù)量相對(duì)較小,所以使用單個(gè)消費(fèi)級(jí)GPU就能輕松部署和運(yùn)行。
給小羊駝披上白大褂的背后團(tuán)隊(duì),主要成員來自劍橋大學(xué)語言技術(shù)實(shí)驗(yàn)室(CambridgeLTL,Language Technology Lab at the University of Cambridge),以及一位MIT背景的中國小哥。
披上白大褂的羊駝
披上白大褂的小羊駝,望聞問切的實(shí)際效果如何?
帶著疑問,我們把同樣的考題(根據(jù)模態(tài)能力)丟給了Visual Med-Alpaca、Glass AI(提供診斷和臨床建議的生成式AI應(yīng)用)、VQA Medical Model(醫(yī)學(xué)影像語言模型)、MOSS以及GPT-4。
看X光片能力
既然是多模態(tài)LLM,測(cè)試時(shí)自然不能放過這部分。
丟給他一張胸部X光片,并且提問:X光片顯示了這人有啥毛???該咋辦?
Visual Med-Alpaca給出的答案是這樣的:
在胸部X光片中看到的雙側(cè)浸潤和雙側(cè)胸腔積液,可能表明呼吸道感染或其他呼吸系統(tǒng)疾病,例如肺炎肺水腫或胸腔積液,重要的是咨詢醫(yī)療專業(yè)人員以進(jìn)行正確診斷和治療計(jì)劃。

而參賽選手中另一名能讀圖看病的VQA Medical Model,回答就兩個(gè)字:
褥瘡(the decubitus)。

提供用藥建議
鑒于能夠讀圖看病的LLM應(yīng)用太少,后續(xù)測(cè)試都只采用純文字模式。
第一個(gè)問題:我頭發(fā)掉到快禿了,有啥藥可以救救孩子?
Visual Med-Alpaca列出了5種藥物,順帶解釋了一下用法和對(duì)應(yīng)病癥。
- 1、米諾地爾:一種用于頭皮以促進(jìn)頭發(fā)生長的藥物。
- 2、非那雄胺:一種口服藥物,可減緩二氫睪酮 (DHT) 的產(chǎn)生,DHT 是一種可導(dǎo)致脫發(fā)的激素。
- 3、皮質(zhì)類固醇:可涂抹在頭皮上以減輕炎癥和促進(jìn)毛發(fā)生長的外用藥物。
- 4、蒽林:一種應(yīng)用于頭皮的藥物,通過刺激滋養(yǎng)毛囊的血細(xì)胞的產(chǎn)生來促進(jìn)頭發(fā)生長。
- 5、酮康唑:一種應(yīng)用于頭皮的藥物,用于治療可導(dǎo)致脫發(fā)的真菌感染。在使用任何這些化學(xué)物質(zhì)治療脫發(fā)之前。
- 請(qǐng)務(wù)必咨詢醫(yī)療保健專業(yè)人員,因?yàn)樗鼈兛赡苡袧撛诘母弊饔貌⑶铱赡懿⒉贿m合所有人。
(感覺有人跟我一樣需要,所以特地翻譯后列出,狗頭.jpg)

Glass AI對(duì)這個(gè)問題的回答,給出的診療方案是米諾地爾和非那雄胺。
深孚眾望的ChatGPT,也給出了5種用藥:
(由于一些不可描述的原因,對(duì)第3種表示婉拒了哈)
第二個(gè)問題:如何檢測(cè)2型糖尿病?
Visual Med-Alpaca給出了5種測(cè)試辦法,包括空腹血糖測(cè)試、口服葡萄糖耐量測(cè)試等。
Glass AI給出的建議包含了此前的5種方案,然后額外有一種脂質(zhì)譜。
ChatGPT給出的測(cè)試辦法少了一種,但也舉例了多種方法。
體驗(yàn)結(jié)果來看,Visual Med-Alpaca在醫(yī)學(xué)領(lǐng)域確實(shí)普遍表現(xiàn)更好,Glass AI也很有不錯(cuò)的表現(xiàn),但吃虧在無法進(jìn)行多模態(tài)的生成。
Visual Med-Alpaca
而從技術(shù)層面來看,Visual Med-Alpaca構(gòu)建于Meta開源的LLaMa-7B之上,是比較輕量級(jí)的一個(gè)模型,易于本地化部署,并降低微調(diào)成本。
據(jù)團(tuán)隊(duì)成員解釋,整個(gè)模型還參考了Visual-ChatGPT和Alpaca。也就是說,整個(gè)模型及其架構(gòu)層面沒有太大創(chuàng)新。
基于這個(gè)問題,團(tuán)隊(duì)成員對(duì)量子位的回答是:
畢竟全天下basically Transformer,哈哈哈哈哈哈。
Visual Med-Alpaca的整體工作原理,就是使用prompt管理器,將文本和視覺兩種模態(tài)的信息合并到prompt中,從而生成具有生物醫(yī)藥專業(yè)知識(shí)的回答。
首先,圖像input被送入類型分類器,識(shí)別出把視覺信息轉(zhuǎn)換為中間文本格式的適當(dāng)模塊,然后加入文本input,用于后續(xù)推理過程。
為了讓醫(yī)學(xué)圖像更適合輸入,這一步涉及了集成視覺基礎(chǔ)模型DEPLOT和Med-GIT。
然后,prompt管理器從圖像和文本input中提取到的文本信息,合并到Med-Alpaca的prompt中,最后生成具有生物醫(yī)學(xué)領(lǐng)域?qū)I(yè)知識(shí)的回答。
訓(xùn)練過程中,為了更好地讓生物醫(yī)學(xué)知識(shí)和視覺模態(tài)在LLaMA-7B中結(jié)合,團(tuán)隊(duì)使用了兩個(gè)不同的數(shù)據(jù)集進(jìn)行微調(diào)。
一個(gè)是54000個(gè)生物醫(yī)學(xué)示例問答對(duì)組成的模型生成數(shù)據(jù)集,負(fù)責(zé)執(zhí)行標(biāo)準(zhǔn)微調(diào)和低秩自適應(yīng)?(LoRA)?微調(diào);另一個(gè)是Radiology Objects in Context?(ROCO)?數(shù)據(jù)集,在其上微調(diào)了Microsoft GIT模型,用來合并視覺模態(tài)。
這里還運(yùn)用了GPT-3.5-turbo的NLP能力,從各種醫(yī)學(xué)數(shù)據(jù)集中收集、查詢,最后綜合生成更符合人類對(duì)話習(xí)慣的結(jié)構(gòu)化答案。
在體驗(yàn)過程中不難發(fā)現(xiàn),所有的回答最后,Visual Med-Alpaca都會(huì)附上一句叮囑,大致內(nèi)容是:
“鑒于風(fēng)險(xiǎn)因素的存在,可以結(jié)合你的個(gè)人健康史去看看醫(yī)生哈~”
究其緣由,團(tuán)隊(duì)解釋這是一個(gè)學(xué)術(shù)合作項(xiàng)目,而非商業(yè)化模型。
團(tuán)隊(duì)強(qiáng)調(diào),為Visual Med-Alpaca評(píng)估劃定能力邊界非常重要。模型雖然通過insruct-tuning,對(duì)整體的專業(yè)性進(jìn)行了增強(qiáng),讓模型在生物醫(yī)療領(lǐng)域更傾向于保守作答,但無法完全避免大模型的幻覺現(xiàn)象。
所以開源頁中也加粗標(biāo)出了“Visual Med-Alpaca嚴(yán)格用于學(xué)術(shù)研究,在任何國家都沒有合法批準(zhǔn)將其用于醫(yī)療用途”。
2名劍橋老師+4名華人小哥
Visual Med-Alpaca項(xiàng)目背后,是兩位劍橋老師和四名華人小哥。
帶隊(duì)老師是CambridgeLTL聯(lián)合主任、劍橋NLP教授Nigel Collier,他在NLP和AI領(lǐng)域研究25年有余,現(xiàn)在也是艾倫圖靈研究所研究員。
共同一作Chang Shu,CambridgeLTL博一在讀,導(dǎo)師是Nigel Collier。此前,他在愛丁堡大學(xué)完成本碩學(xué)業(yè)。
目前的研究領(lǐng)域集中在LLM的安全性和可解釋性方面。
共同一作Baian Chen,本科畢業(yè)于MIT計(jì)算機(jī)系,從事AI方向的研究。他的目前身份是Ruiping Health創(chuàng)始人。
Fangyu Liu,CambridgeLTL博三在讀,師從Nigel Collier。在進(jìn)入劍橋大學(xué)攻讀碩士學(xué)位之前,他在滑鐵盧大學(xué)就讀計(jì)算機(jī)科學(xué)本科。
Zihao Fu,CambridgeLTL助理研究員、博士后,同樣是Nigel Collier的學(xué)生。在此之前,他博士畢業(yè)于香港中文大學(xué),師從Wai Lam教授;本碩階段則就讀于北京航空航天大學(xué)。
以及還有一位Ehsan Shareghi,他是劍橋大學(xué)的兼職講師,同時(shí)是莫納什大學(xué)數(shù)據(jù)科學(xué)與人工智能系的助理教授,之前有在倫敦大學(xué)電氣與電子工程系的工作經(jīng)歷。
研究興趣包括探究和增強(qiáng)預(yù)訓(xùn)練大模型。
GitHub:https://github.com/cambridgeltl/visual-med-alpaca/tree/main/code
參考鏈接:https://cambridgeltl.github.io/visual-med-alpaca/
- 商湯林達(dá)華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計(jì),讓70年經(jīng)驗(yàn)“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08