“AI問診就是拋硬幣”!甚至漏掉67%病患,Nature都看不下去了
對可重復性提出了質疑
詹士 Alex 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
“AI的一些醫(yī)療決策,實際上就是拋硬幣?!?/strong>
哈佛醫(yī)學院的數(shù)據(jù)科學家Kun-Hsing Yu語出驚人。
他還補充道:
即便比賽中正確率達90%的獲獎模型,再用原數(shù)據(jù)集子集測試時,準確度最多60-70%,可謂慘敗。這讓我們很驚訝。
上述科學家的觀點來自Nature最近新發(fā)表的一篇文章。
內(nèi)容對AI在醫(yī)療領域的可重復性提出了質疑,呈現(xiàn)諸多醫(yī)療領域及場景中,AI自帶的黑箱屬性造成的隱患。
更值得關注的是,盡管問題存在,但AI仍在醫(yī)療領域大規(guī)模推廣使用。
舉例來看,數(shù)以百計的美國醫(yī)院已在使用一種AI模型標記敗血癥早期癥狀,但在2021年,該模型被發(fā)現(xiàn)未能識別率高達67%。
所以,AI究竟帶來了哪些醫(yī)療隱患,如何解決?
繼續(xù)往下看。
△ 圖源:Nature
人工智能的“看病難”
我們先從哈佛醫(yī)學院的數(shù)據(jù)科學家Kun-Hsing Yu發(fā)現(xiàn)AI“拋硬幣”的始末聊起。
在醫(yī)療領域,AI用于診斷檢測人體一直質疑聲不斷,Kun-Hsing Yu此番研究也是希望有個直觀體感。
他選定了常見癌癥之一的肺癌,每年有350萬美國人因該病癥去世,若能更早通過CT掃描篩查,很多人可以免于死亡。
該領域的確備受機器學習界關注,為此,2017年業(yè)內(nèi)還舉辦了面向肺癌篩查的競賽。
該活動歸屬于Kaggle的Data Science Bowl賽事,數(shù)據(jù)由主辦方提供,涵蓋1397位患者的胸部CT掃描數(shù)據(jù)。參賽團隊需開發(fā)并測試算法,最終大賽按準確率給予評獎,在官宣中,至少五個獲獎模型準確度90%以上。
但Kun-Hsing Yu又重新測試了一輪,然后震驚地發(fā)現(xiàn),即便使用原比賽數(shù)據(jù)的子集,這些“獲獎”模型最高準確率卻下降到了60-70%。
△ 一位參賽者分享的模型結構
上述狀況并非個例。
普林斯頓一位博士,Sayash Kapoor,在17個領域的329項研究中報告了可重復性失敗和陷阱,醫(yī)學名列其中。
基于研究,這位博士及自己的教授還組織了一個研討會,吸引了30個國家600名科研者參與。
一位劍橋的高級研究員在現(xiàn)場表示,他用機器學習技術預測新冠傳播流行趨勢,但因不同來源的數(shù)據(jù)偏差、訓練方法等問題,沒有一次模型預測準確。還有一位研究者也分享了——自己用機器學習研究心理課題,但無法復現(xiàn)的問題。
在該研討會上,還有參與者指出谷歌此前遇到的“坑”。
他們曾在2008年就利用機器學習分析用戶搜索所產(chǎn)生數(shù)據(jù)集,進而預測流感暴發(fā)。谷歌為此還鼓吹一波。
但事實上,它并未能預測2013年的流感暴發(fā)。一家獨立研究機構指出,該模型將一些流感流行無關的季節(jié)性詞匯進行了關聯(lián)和鎖定。2015年,谷歌停止了對外公開該趨勢預測。
Kapoor認為,就可重復性來說,AI模型背后的代碼和數(shù)據(jù)集都應可用并不出錯誤。那位研究新冠流行模型的劍橋ML研究者補充道,數(shù)據(jù)隱私問題、倫理問題、監(jiān)管障礙也是導致可重復性出問題的病灶。
他們繼續(xù)補充道,數(shù)據(jù)集是問題根源之一。目前公開可用的數(shù)據(jù)集比較稀缺,這導致模型很容易產(chǎn)生帶偏見的判斷。比如特定數(shù)據(jù)集中,醫(yī)生給一個種族開的藥比另一個種族多,這可能導致AI將病癥與種族關聯(lián),而非病癥本身。
另一個問題是訓練AI中的“透題”現(xiàn)象。因數(shù)據(jù)集不足,用于訓練模型的數(shù)據(jù)集和測試集會重疊,甚至該情況一些當事人還不知道,這也可能導致大家對模型的正確率過于樂觀。
△ Sayash Kapoor博士
盡管問題存在,但AI模型仍已被應用在實際診斷場景中,甚至直接下場看病。
2021年,一個名為Epic Sepsis Model的醫(yī)療診斷模型被曝出嚴重漏檢問題。
該模型用于敗血癥篩查,通過識別病人早期患病特征檢測,避免這種全身感染的發(fā)生,但密歇根大學醫(yī)學院研究者通過調(diào)查分析了27697人的就診情況,結果發(fā)現(xiàn),該模型未能識別67%敗血癥病患。
此后,該公司對模型進行了大調(diào)整。
一位計算生物學家對此指出,該問題之所以較難解決,也同AI模型透明度不足有關?!拔覀冊趯嵺`中部署了無法理解的算法,也并不知道它帶什么偏見”,他補充道。
△ 曝出Epic Sepsis Model問題的文章
可以明確的是,只要上述問題一直未能解決,商業(yè)巨頭及相關創(chuàng)業(yè)項目也有些舉步維艱——
去年谷歌谷歌健康(Google Health)宣布人員拆分到各團隊,前幾天,谷歌孵化的生命健康子公司Verily又被曝裁員約15%。
有沒改進措施?
對于這樣的現(xiàn)狀,一些研究者和業(yè)內(nèi)人士也在著手改進醫(yī)療AI。
一方面,是構建靠譜的超大數(shù)據(jù)集。
涵蓋機構、國家和人口等多方面的數(shù)據(jù),并向所有人開放。
這種數(shù)據(jù)庫其實已經(jīng)出現(xiàn)了,比如英國和日本的國家生物庫,以及重癥病房遠程監(jiān)護系統(tǒng)eICU合作的數(shù)據(jù)庫等。
就拿eICU合作研究數(shù)據(jù)庫來說,這里面大約有20萬次的ICU入院相關數(shù)據(jù),由飛利浦醫(yī)療集團和MIT的計算生理學實驗室共同提供。
為了規(guī)范數(shù)據(jù)庫的內(nèi)容,需要建立收集數(shù)據(jù)的標準。例如一個關于醫(yī)療結果伙伴關系的可觀測數(shù)據(jù)模型,讓各醫(yī)療機構能以相同的方式收集信息,這樣有利于加強醫(yī)療保健領域的機器學習研究。
當然,與此同時,也必須重視嚴格保護患者的隱私,而且只有當患者本人同意時,才有資格把他們的數(shù)據(jù)納入庫。
另一方面,想要提升機器學習質量的話,消除冗余數(shù)據(jù)也很有幫助。
因為在機器學習中,冗余數(shù)據(jù)不僅會延長運行時間、消耗更多資源;而且還很可能造成模型過擬合——也就是訓練出來的模型在訓練集上表現(xiàn)很好,但是在測試集上表現(xiàn)較差。
對于AI圈很熱門的預測蛋白質結構,這個問題已經(jīng)得到了有效緩解。在機器學習過程中,科學家們成功地從測試集中刪除了和訓練集用到的過于相似的蛋白質。
but,各病人醫(yī)療數(shù)據(jù)之間的差異,并沒有不同蛋白質結構差異那么明顯。在一個數(shù)據(jù)庫中,可能有許許多多病情非常相似的個體。
所以我們需要想清楚到底向算法展示什么數(shù)據(jù),才能平衡好數(shù)據(jù)的代表性和豐富性之間的關系。
哥本哈根大學的轉化性疾病系統(tǒng)生物學家S?ren Brunak如是評價。
除此之外,還可以請行業(yè)大佬們制定一個檢查表,規(guī)范醫(yī)療AI領域的研究開發(fā)步驟。
然后,研究人員就能更方便地搞清楚先做什么、再做什么,有條不紊地操作;還能Check一些可能遺漏的問題,比如一項研究是回顧性還是前瞻性的,數(shù)據(jù)與模型的預期用途是否匹配等等。
其實,現(xiàn)有已有多種機器學習檢查表,其中大部分是基于“EQUATOR Network”先提出的,這是一項旨在提高健康研究可靠性的國際倡議。
此前,上文提到的普林斯頓的Kapoor博士,也和團隊共同發(fā)表了一份包含21個問題的清單。
他們建議,對于一個預測結果的模型,研究人員得確認訓練集中的數(shù)據(jù)要早于測試集,這樣可以確保兩個數(shù)據(jù)集是獨立的,不會有數(shù)據(jù)重疊和相互影響。
參考鏈接:
[1]https://www.nature.com/articles/d41586-023-00023-2
[2]https://www.wired.com/story/machine-learning-reproducibility-crisis/
[3]https://mp.weixin.qq.com/s/TEoe3d9DYuO7DGQeEQFghA
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們,第一時間獲知前沿科技動態(tài)
- 大數(shù)據(jù)已死!從業(yè)10年老哥爆文抨擊:這套唬不住客戶了2023-02-14
- ChatGPT五分鐘寫完插件,功能完善,還可加需求改BUG2023-02-09
- 谷歌創(chuàng)始人親自下場改代碼,ChatGPT讓谷歌真慌了2023-02-03
- 谷歌加緊測試ChatGPT競品,靠對話可搜最新信息2023-02-02