ChatGPT擊敗50名人類醫(yī)生!疾病診斷準確率達90%,OpenAI總裁:人機合作還得加強
人類準確率74%
克雷西 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
用ChatGPT診斷疾病,準確率已經超過了人類醫(yī)生?!
斯坦福大學等機構進行了一輪隨機臨床試驗,結果人類醫(yī)生單獨做出診斷的準確率為74%。
在ChatGPT的輔助之下,這一數(shù)字提升到了76%。
有意思的是,如果完全讓ChatGPT“自由發(fā)揮”,準確率直接飆到了90%。
據(jù)紐約時報說,面對這一結果,參與實驗的內科專家Adam Rodman博士表示非常震驚。
有人評價,在這樣的案例中,人類的干預,反而是給大模型的表現(xiàn)“拖了后腿”。
OpenAI總裁Brockman也轉發(fā)了這則消息,表示看來AI還有巨大的潛力,但在和人類合作這件事上,還需要再加強。
50名醫(yī)生挑戰(zhàn)經典病例
研究團隊隨機從斯坦福大學、弗吉尼亞大學等機構招募到了50名醫(yī)生,其中包括44名內科醫(yī)生、5名急診醫(yī)生和1名家庭醫(yī)生。
如果按照職稱劃分,這50名醫(yī)生包括26名主治醫(yī)生和24名住院醫(yī)生,工作年限中位數(shù)為3年。
主治醫(yī)生和住院醫(yī)生分別被隨機分配到實驗組和對照組,區(qū)別是在診斷中是否允許使用ChatGPT。
另外,研究人員還對參與者的大模型使用經驗進行了統(tǒng)計。
結果有8人從未使用過ChatGPT,6人只用過一次,15人使用頻率少于每月一次,13人每月多于一次但少于每周一次,8人每周至少使用一次。
病例方面,研究團隊從上世紀90年代以來的105個經典病例中進行了選擇和改編。
所有病例均來源于真實病人,包含病史、體檢和實驗室檢查結果等初步診斷評估信息,但最終診斷結果從未公開。
這意味著,人類醫(yī)生無法預先知曉答案,ChatGPT的訓練數(shù)據(jù)中也沒有相應的診斷結果。
四名專業(yè)醫(yī)生每人獨立審閱其中至少50個病例,確定至少10個滿足納入標準的候選病例,需要排除過于簡單或過于罕見的病例。
最終四人小組討論達成一致,確定6個最終入選病例,預計受試者完成時間為1個小時。
入選的病例還要經過編輯,改寫成現(xiàn)代化實驗室數(shù)據(jù)報告的格式,并用將專業(yè)術語替換為通俗描述(如將“網狀青斑”替換為“紫色、紅色、蕾絲狀皮疹”)。
在評估方法上,研究團隊設計了一個基于“結構化反思”的評估工具。
具體來說,參與者需要填寫一個結構化的表格,其中包含以下關鍵要素:
- 最可能的三個鑒別診斷(3分):參與者需要根據(jù)病例信息,列出他們認為最有可能的三個診斷,每個正確的診斷可以獲得1分,最多3分;
- 支持和反對每個診斷的因素(12分):對于每個鑒別診斷,參與者需要列出病例中支持和反對該診斷的具體證據(jù)。每個因素的評分采用0-2分的等級,0分表示錯誤或缺失,1分表示部分正確,2分表示完全正確;
- 最終診斷(2分):在綜合考慮各鑒別診斷的支持和反對證據(jù)后,參與者需要給出最終診斷。最佳診斷得2分,次佳但合理的診斷得1分,錯誤診斷不得分;
- 后續(xù)步驟(2分):參與者需要列出最多三個他們認為必要的后續(xù)診斷措施,以進一步確認或排除某些診斷。每個步驟的評分也采用0-2分的等級,0分表示錯誤,1分表示部分正確,2分表示完全正確。
在正式實驗之前,研究團隊招募了13名醫(yī)生,收集了共65個試點病例的結構化反思表格,并邀請3名臨床評估專家進行盲評,從而對評分量表進行了優(yōu)化。
最終,50名參與者需要在1個小時時間內,完成6個病例的結構化反思表格。
每個病例會被2名評分員獨立盲評,如果兩名評審員評分相差不超過10%,則直接取平均值;
如果差異超過10%,則認為兩名評審員存在分歧,需要進行討論直至達成共識。
ChatGPT表現(xiàn)超過人類
為了更清晰地展示研究的內容,研究人員公布了六個病例中的一個,以及對應得分高和得分低的醫(yī)生的答案。
一名76歲的男性患者,走路時腰部、臀部和小腿劇烈疼痛。在他接受球囊血管成形術以擴大冠狀動脈后幾天,疼痛開始出現(xiàn)。手術后,他接受了48小時的血液稀釋劑肝素治療。
該男子稱他感到發(fā)燒和疲倦。他的心臟病醫(yī)生所做的實驗室研究表明,他的貧血癥再次發(fā)作,并且氮和其他腎臟廢物在血液中積聚。該男子十年前曾因心臟病接受搭橋手術。
案例中還包括該男子體檢的詳細信息以及他的實驗室測試結果,正確的診斷是“膽固醇栓塞”,兩名醫(yī)生以及GPT-4給出的回答如下(中間理由和后續(xù)操作略)。
最終,實驗組(使用ChatGPT)的診斷得分中位數(shù)為76%,對照組為74%。
由于每個參與者完成了多個病例,因此病例之間可能存在相關性,所以為了妥善處理這種嵌套結構,作者使用了混合效應模型。
這類模型不僅考慮了干預的固定效應(即是否使用大模型的影響),還考慮了參與者和病例的隨機效應。
根據(jù)混合效應模型估計,兩組的差異為2個百分點,95%置信區(qū)間為-4到8個百分點,p值為0.60。
這意味著,盡管實驗組的得分略高于對照組,但這種差異可能僅僅是由于隨機誤差所致,不具有統(tǒng)計學意義。
如果單純看最終診斷結果,以及完成測試所花費的時間,兩組之間同樣沒有體現(xiàn)出明顯的差別。
除此之外,作者還補充了單獨使用ChatGPT進行診斷的實驗。
研究團隊使用近期提出的提示工程框架,迭代開發(fā)了一個最優(yōu)的0樣本提示。
其中包含了任務細節(jié)、背景、指令等關鍵要素,且每個病例使用相同的提示。
一名研究者會將優(yōu)化后的提示,連同病例內容輸入ChatGPT,每個病例獨立運行三次。
研究者會不對ChatGPT的輸出做任何人工修改,直接交給評分者一同盲評,而且評分員也不知道哪些結果由ChatGPT生成。
結果,單獨使用ChatGPT得到的診斷得分,中位數(shù)高達92%,明顯高于對照組,且p值為0.03,具有統(tǒng)計學意義。
需要注意的是,這些病例是經過人類臨床醫(yī)生精心篩選和總結的,人類已經對其中的關鍵信息進行過提取。
實際臨床工作中,從病人那里獲取信息、收集數(shù)據(jù)的過程更加復雜,因此實驗結果并不代表大模型能在臨床場景中取代人類。
但同時,“人類+ChatGPT”與ChatGPT“自由發(fā)揮”結果之間的巨大差異,也說明了人類的使用方式,還遠遠不能發(fā)揮出大模型的最大效能。
所以,就像開頭Brockman說的一樣,這個實驗預示著,人類和AI之間,還需要進一步加強合作。
論文地址:
https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395
參考鏈接:
[1]https://www.nytimes.com/2024/11/17/health/chatgpt-ai-doctors-diagnosis.html
[2]https://x.com/gdb/status/1858337346514485362
- DeepSeek一句話讓國產芯片集體暴漲!背后的UE8M0 FP8到底是個啥2025-08-22
- GPT-5 Pro獨立做數(shù)學研究!讀論文后給出更精確邊界,OpenAI總裁:這是生命跡象2025-08-21
- 黃仁勛子女成長路徑曝光:一個學烘焙一個開酒吧,從基層做到英偉達高管2025-08-12
- 讓64張卡像一張卡!浪潮信息發(fā)布新一代AI超節(jié)點,支持四大國產開源模型同時運行2025-08-11