谷歌自曝醫(yī)療AI臨床結(jié)果不佳:實(shí)驗(yàn)室豐滿,臨床骨感
白交 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
實(shí)驗(yàn)室數(shù)據(jù)不斷刷新記錄的Google Health,最近公布了一項(xiàng)臨床診斷試驗(yàn)結(jié)果。
不理想。
不僅診斷結(jié)果不一致,而且實(shí)際操作方法和在實(shí)驗(yàn)室里壓根不一樣。
這項(xiàng)系統(tǒng)是檢測(cè)糖尿病性視網(wǎng)膜病變(DR)的癥狀,對(duì)糖尿病進(jìn)行一個(gè)早期的篩查。
這。。不正是前幾年,谷歌一直在發(fā)力的核心項(xiàng)目嗎?
早在2016年,谷歌就在《美國(guó)醫(yī)學(xué)會(huì)期刊》(JAMA)發(fā)表了他們的研究成果:
一個(gè)深度學(xué)習(xí)算法能夠解釋視網(wǎng)膜照片中的DR跡象,可能將幫助醫(yī)生篩查更多的病人,尤其是在資源有限的社區(qū)中。
而當(dāng)時(shí)谷歌產(chǎn)品經(jīng)理及醫(yī)學(xué)博士Lily Peng就表示:“幾年前,谷歌的一個(gè)研究小組就開(kāi)始探索利用機(jī)器學(xué)習(xí)來(lái)篩查糖尿病性視網(wǎng)膜病變(DR)。
深耕多年,內(nèi)部研究都已經(jīng)達(dá)到了90%的準(zhǔn)確度,相當(dāng)于人類專家水平。
沒(méi)想到,落到臨床試驗(yàn),卻失敗了。
這大概就是理想與現(xiàn)實(shí)的差距吧。理想有多豐滿,現(xiàn)實(shí)就有多骨感。
像極了我們?cè)诖髮W(xué)實(shí)驗(yàn)室里做實(shí)驗(yàn)的樣子。
研究結(jié)果很“豐滿”
若干年前,谷歌的研究人員就致力于利用深度學(xué)習(xí)算法來(lái)增強(qiáng)糖尿病視網(wǎng)膜的檢測(cè)過(guò)程。
在2016年公布的論文“Development and Validation of a Deep Learning Algorithm for Detection of Diabetic RetinoPathy in Retinal Fundus Photographs”中,就介紹了他們的實(shí)驗(yàn)結(jié)果。
通常,糖尿病人的眼部檢查是由眼科專家分析病人的眼底造影圖像,并通過(guò)檢查眼底病變來(lái)判定患病以及嚴(yán)重情況。
為此,谷歌研究人員專門(mén)建立了一個(gè)12.8萬(wàn)幅圖片的數(shù)據(jù)集,每張圖片記錄了3-7名眼科醫(yī)師的評(píng)估結(jié)果。
為了驗(yàn)證算法的性能,他們還使用了2個(gè)獨(dú)立的臨床試驗(yàn)數(shù)據(jù)集,包括1.2萬(wàn)幅圖片,審核結(jié)果由專家來(lái)判決。
最終的結(jié)果表明,谷歌的算法診斷性能可以實(shí)現(xiàn)90%的準(zhǔn)確率,已經(jīng)可以跟眼科專家的診斷結(jié)果相媲美~
研究結(jié)果確實(shí)是很“豐滿”,于是在這幾年,他們就開(kāi)始著手臨床試驗(yàn)了。
臨床試驗(yàn)很“骨感”
這個(gè)項(xiàng)目主要是在泰國(guó)展開(kāi),與泰國(guó)公共衛(wèi)生部門(mén)合作,在泰國(guó)巴吞他尼省和清邁省的11所診所安裝了這個(gè)深度學(xué)習(xí)系統(tǒng)。
首先是由護(hù)士挨個(gè)給患者拍攝眼球照片,然后將這張照片上傳到系統(tǒng),隨后拿著照片到眼科醫(yī)生診斷。
理論上,這個(gè)系統(tǒng)能夠在幾秒鐘內(nèi)提供類似眼科專家的專業(yè)診斷,然后護(hù)士們可以在一分鐘內(nèi)做出初步的轉(zhuǎn)診或進(jìn)一步檢查的建議。
然而。。。
實(shí)際情況是,系統(tǒng)要1到2分鐘才能上傳圖片,發(fā)送的圖像達(dá)不到標(biāo)準(zhǔn),護(hù)士的判斷也就有了一定的誤差。
那么我們就來(lái)具體聊一下他們的實(shí)際落地情況。
首先,在第一步,護(hù)士拍攝的眼球照片達(dá)不到算法的標(biāo)準(zhǔn)。
因?yàn)槊總€(gè)診所的條件和資源不盡相同,而要達(dá)到算法的高標(biāo)準(zhǔn),通常需要一個(gè)暗室。
光線調(diào)暗了,就確保了患者瞳孔放大,這樣就能夠拍攝高質(zhì)量的眼底照片。
但是在11所診所當(dāng)中,只有2所才有這樣專門(mén)的檢查室。
這會(huì)造成什么樣的影響呢?
如果圖像有明顯的DR癥狀,但是很模糊、質(zhì)量很差,那么系統(tǒng)就會(huì)自行拒絕,這樣流程就更加復(fù)雜,耗費(fèi)更多的人力物力。
甚至,患者還有可能跑去另一家醫(yī)院檢測(cè)。
這還給護(hù)士帶來(lái)了很大的壓力,因?yàn)樗惴ㄋ蟮膱D像跟平時(shí)常采集的圖像質(zhì)量要求有一定的差距。
接著,可能是因?yàn)楣雀柩芯渴业木W(wǎng)絡(luò)連接太強(qiáng)大,只需要幾秒就可以上傳。但是在診所里,網(wǎng)絡(luò)并不那么流暢,圖像往往就需要一分多鐘才能上傳。
這樣,篩查進(jìn)程就變慢了。有一家診所在進(jìn)行眼底篩查時(shí),網(wǎng)絡(luò)中斷了兩個(gè)小時(shí),導(dǎo)致篩查的患者人數(shù)從200人減少到只有100人。
所以,組織篩查流程的護(hù)士,因?yàn)榫哂凶灾餍裕械淖o(hù)士就建議患者不參加研究,避免一些不必要的麻煩。
最后,其實(shí)還有一個(gè)最為關(guān)鍵的問(wèn)題——患者。
其實(shí)這項(xiàng)研究,本身就以患者為中心,如果患者不愿意不滿意,那就有必要進(jìn)一步改進(jìn)。
在實(shí)驗(yàn)中,一位診所的護(hù)士曾提到:
患者關(guān)心的不是診斷的準(zhǔn)確性,而是體驗(yàn)如何。如果診斷的過(guò)程太麻煩,他們寧愿不參加研究,直接找醫(yī)生診斷。
努力了那么久,卻是這樣的結(jié)果,難免有些落差。
但這并不是一個(gè)壞消息。
谷歌公布失敗結(jié)果的同時(shí),也強(qiáng)調(diào),有了這樣與醫(yī)生患者的互動(dòng),才能更好的改進(jìn)這項(xiàng)技術(shù)。
同時(shí),也給谷歌這種勇于“正視淋漓的臨床結(jié)果”的態(tài)度,點(diǎn)個(gè)贊。
畢竟這個(gè)行業(yè)里,報(bào)喜的多,吹哨的少。
也提醒我們,醫(yī)療AI,沒(méi)那么簡(jiǎn)單。
畢竟AI“進(jìn)軍”醫(yī)療,年頭不少了,但你在醫(yī)院和普通門(mén)診場(chǎng)景里,有見(jiàn)到嗎?你愿意把疾病交給AI診斷嗎?
參考鏈接:https://www.blog.google/technology/health/healthcare-ai-systems-put-people-center/
論文地址:https://dl.acm.org/doi/fullHtml/10.1145/3313831.3376718
- 英偉達(dá)最新芯片B30A曝光2025-08-20
- AI應(yīng)用如何落地政企?首先不要卷通用大模型2025-08-12
- 本科必學(xué)Dijkstra算法被超越!清華段然團(tuán)隊(duì)打破圖靈獎(jiǎng)得主證明的普遍最優(yōu)性2025-08-09
- 智能體邁入L4 時(shí)代!納米AI多智能體蜂群,可創(chuàng)作最長(zhǎng)10分鐘AI視頻2025-08-06