劍橋華人團隊搞出多模態(tài)醫(yī)學大模型!單個消費級顯卡就能部署,借鑒斯坦?!秆蝰劇苟鴣?/h1>
已開源
衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
已開源
衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
ChatGPT、AutoGPT能干那么些事,好想知道大模型啥時候才能看病,救我本人狗命?
帶視覺的多模態(tài)醫(yī)學基礎大模型,它來啦~
名為Visual Med-Alpaca,官宣即開源。

這個專為生物醫(yī)學領域設計的基礎模型,構建于LLaMa-7B之上,還在一定程度上借鑒了Visual-ChatGPT和Alpaca(羊駝)。
因為參數(shù)量相對較小,所以使用單個消費級GPU就能輕松部署和運行。
給小羊駝披上白大褂的背后團隊,主要成員來自劍橋大學語言技術實驗室(CambridgeLTL,Language Technology Lab at the University of Cambridge),以及一位MIT背景的中國小哥。
披上白大褂的羊駝
披上白大褂的小羊駝,望聞問切的實際效果如何?
帶著疑問,我們把同樣的考題(根據(jù)模態(tài)能力)丟給了Visual Med-Alpaca、Glass AI(提供診斷和臨床建議的生成式AI應用)、VQA Medical Model(醫(yī)學影像語言模型)、MOSS以及GPT-4。
看X光片能力
既然是多模態(tài)LLM,測試時自然不能放過這部分。
丟給他一張胸部X光片,并且提問:X光片顯示了這人有啥毛???該咋辦?
Visual Med-Alpaca給出的答案是這樣的:
在胸部X光片中看到的雙側浸潤和雙側胸腔積液,可能表明呼吸道感染或其他呼吸系統(tǒng)疾病,例如肺炎肺水腫或胸腔積液,重要的是咨詢醫(yī)療專業(yè)人員以進行正確診斷和治療計劃。

而參賽選手中另一名能讀圖看病的VQA Medical Model,回答就兩個字:
褥瘡(the decubitus)。

提供用藥建議
鑒于能夠讀圖看病的LLM應用太少,后續(xù)測試都只采用純文字模式。
第一個問題:我頭發(fā)掉到快禿了,有啥藥可以救救孩子?
Visual Med-Alpaca列出了5種藥物,順帶解釋了一下用法和對應病癥。
- 1、米諾地爾:一種用于頭皮以促進頭發(fā)生長的藥物。
- 2、非那雄胺:一種口服藥物,可減緩二氫睪酮 (DHT) 的產(chǎn)生,DHT 是一種可導致脫發(fā)的激素。
- 3、皮質類固醇:可涂抹在頭皮上以減輕炎癥和促進毛發(fā)生長的外用藥物。
- 4、蒽林:一種應用于頭皮的藥物,通過刺激滋養(yǎng)毛囊的血細胞的產(chǎn)生來促進頭發(fā)生長。
- 5、酮康唑:一種應用于頭皮的藥物,用于治療可導致脫發(fā)的真菌感染。在使用任何這些化學物質治療脫發(fā)之前。
- 請務必咨詢醫(yī)療保健專業(yè)人員,因為它們可能有潛在的副作用并且可能并不適合所有人。
(感覺有人跟我一樣需要,所以特地翻譯后列出,狗頭.jpg)

Glass AI對這個問題的回答,給出的診療方案是米諾地爾和非那雄胺。
深孚眾望的ChatGPT,也給出了5種用藥:
(由于一些不可描述的原因,對第3種表示婉拒了哈)
第二個問題:如何檢測2型糖尿病?
Visual Med-Alpaca給出了5種測試辦法,包括空腹血糖測試、口服葡萄糖耐量測試等。
Glass AI給出的建議包含了此前的5種方案,然后額外有一種脂質譜。
ChatGPT給出的測試辦法少了一種,但也舉例了多種方法。
體驗結果來看,Visual Med-Alpaca在醫(yī)學領域確實普遍表現(xiàn)更好,Glass AI也很有不錯的表現(xiàn),但吃虧在無法進行多模態(tài)的生成。
Visual Med-Alpaca
而從技術層面來看,Visual Med-Alpaca構建于Meta開源的LLaMa-7B之上,是比較輕量級的一個模型,易于本地化部署,并降低微調成本。
據(jù)團隊成員解釋,整個模型還參考了Visual-ChatGPT和Alpaca。也就是說,整個模型及其架構層面沒有太大創(chuàng)新。
基于這個問題,團隊成員對量子位的回答是:
畢竟全天下basically Transformer,哈哈哈哈哈哈。
Visual Med-Alpaca的整體工作原理,就是使用prompt管理器,將文本和視覺兩種模態(tài)的信息合并到prompt中,從而生成具有生物醫(yī)藥專業(yè)知識的回答。
首先,圖像input被送入類型分類器,識別出把視覺信息轉換為中間文本格式的適當模塊,然后加入文本input,用于后續(xù)推理過程。
為了讓醫(yī)學圖像更適合輸入,這一步涉及了集成視覺基礎模型DEPLOT和Med-GIT。
然后,prompt管理器從圖像和文本input中提取到的文本信息,合并到Med-Alpaca的prompt中,最后生成具有生物醫(yī)學領域專業(yè)知識的回答。
訓練過程中,為了更好地讓生物醫(yī)學知識和視覺模態(tài)在LLaMA-7B中結合,團隊使用了兩個不同的數(shù)據(jù)集進行微調。
一個是54000個生物醫(yī)學示例問答對組成的模型生成數(shù)據(jù)集,負責執(zhí)行標準微調和低秩自適應?(LoRA)?微調;另一個是Radiology Objects in Context?(ROCO)?數(shù)據(jù)集,在其上微調了Microsoft GIT模型,用來合并視覺模態(tài)。
這里還運用了GPT-3.5-turbo的NLP能力,從各種醫(yī)學數(shù)據(jù)集中收集、查詢,最后綜合生成更符合人類對話習慣的結構化答案。
在體驗過程中不難發(fā)現(xiàn),所有的回答最后,Visual Med-Alpaca都會附上一句叮囑,大致內(nèi)容是:
“鑒于風險因素的存在,可以結合你的個人健康史去看看醫(yī)生哈~”
究其緣由,團隊解釋這是一個學術合作項目,而非商業(yè)化模型。
團隊強調,為Visual Med-Alpaca評估劃定能力邊界非常重要。模型雖然通過insruct-tuning,對整體的專業(yè)性進行了增強,讓模型在生物醫(yī)療領域更傾向于保守作答,但無法完全避免大模型的幻覺現(xiàn)象。
所以開源頁中也加粗標出了“Visual Med-Alpaca嚴格用于學術研究,在任何國家都沒有合法批準將其用于醫(yī)療用途”。
2名劍橋老師+4名華人小哥
Visual Med-Alpaca項目背后,是兩位劍橋老師和四名華人小哥。
帶隊老師是CambridgeLTL聯(lián)合主任、劍橋NLP教授Nigel Collier,他在NLP和AI領域研究25年有余,現(xiàn)在也是艾倫圖靈研究所研究員。
共同一作Chang Shu,CambridgeLTL博一在讀,導師是Nigel Collier。此前,他在愛丁堡大學完成本碩學業(yè)。
目前的研究領域集中在LLM的安全性和可解釋性方面。
共同一作Baian Chen,本科畢業(yè)于MIT計算機系,從事AI方向的研究。他的目前身份是Ruiping Health創(chuàng)始人。
Fangyu Liu,CambridgeLTL博三在讀,師從Nigel Collier。在進入劍橋大學攻讀碩士學位之前,他在滑鐵盧大學就讀計算機科學本科。
Zihao Fu,CambridgeLTL助理研究員、博士后,同樣是Nigel Collier的學生。在此之前,他博士畢業(yè)于香港中文大學,師從Wai Lam教授;本碩階段則就讀于北京航空航天大學。
以及還有一位Ehsan Shareghi,他是劍橋大學的兼職講師,同時是莫納什大學數(shù)據(jù)科學與人工智能系的助理教授,之前有在倫敦大學電氣與電子工程系的工作經(jīng)歷。
研究興趣包括探究和增強預訓練大模型。
GitHub:https://github.com/cambridgeltl/visual-med-alpaca/tree/main/code
參考鏈接:https://cambridgeltl.github.io/visual-med-alpaca/
- 商湯林達華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設計,讓70年經(jīng)驗“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機器人人人人人塞滿了!2025-08-08