谷歌自曝醫(yī)療AI臨床結(jié)果不佳:實驗室豐滿,臨床骨感
白交 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
實驗室數(shù)據(jù)不斷刷新記錄的Google Health,最近公布了一項臨床診斷試驗結(jié)果。
不理想。
不僅診斷結(jié)果不一致,而且實際操作方法和在實驗室里壓根不一樣。
這項系統(tǒng)是檢測糖尿病性視網(wǎng)膜病變(DR)的癥狀,對糖尿病進行一個早期的篩查。
這。。不正是前幾年,谷歌一直在發(fā)力的核心項目嗎?
早在2016年,谷歌就在《美國醫(yī)學會期刊》(JAMA)發(fā)表了他們的研究成果:
一個深度學習算法能夠解釋視網(wǎng)膜照片中的DR跡象,可能將幫助醫(yī)生篩查更多的病人,尤其是在資源有限的社區(qū)中。
而當時谷歌產(chǎn)品經(jīng)理及醫(yī)學博士Lily Peng就表示:“幾年前,谷歌的一個研究小組就開始探索利用機器學習來篩查糖尿病性視網(wǎng)膜病變(DR)。
深耕多年,內(nèi)部研究都已經(jīng)達到了90%的準確度,相當于人類專家水平。
沒想到,落到臨床試驗,卻失敗了。
這大概就是理想與現(xiàn)實的差距吧。理想有多豐滿,現(xiàn)實就有多骨感。
像極了我們在大學實驗室里做實驗的樣子。
研究結(jié)果很“豐滿”
若干年前,谷歌的研究人員就致力于利用深度學習算法來增強糖尿病視網(wǎng)膜的檢測過程。
在2016年公布的論文“Development and Validation of a Deep Learning Algorithm for Detection of Diabetic RetinoPathy in Retinal Fundus Photographs”中,就介紹了他們的實驗結(jié)果。
通常,糖尿病人的眼部檢查是由眼科專家分析病人的眼底造影圖像,并通過檢查眼底病變來判定患病以及嚴重情況。
為此,谷歌研究人員專門建立了一個12.8萬幅圖片的數(shù)據(jù)集,每張圖片記錄了3-7名眼科醫(yī)師的評估結(jié)果。
為了驗證算法的性能,他們還使用了2個獨立的臨床試驗數(shù)據(jù)集,包括1.2萬幅圖片,審核結(jié)果由專家來判決。
最終的結(jié)果表明,谷歌的算法診斷性能可以實現(xiàn)90%的準確率,已經(jīng)可以跟眼科專家的診斷結(jié)果相媲美~
研究結(jié)果確實是很“豐滿”,于是在這幾年,他們就開始著手臨床試驗了。
臨床試驗很“骨感”
這個項目主要是在泰國展開,與泰國公共衛(wèi)生部門合作,在泰國巴吞他尼省和清邁省的11所診所安裝了這個深度學習系統(tǒng)。
首先是由護士挨個給患者拍攝眼球照片,然后將這張照片上傳到系統(tǒng),隨后拿著照片到眼科醫(yī)生診斷。
理論上,這個系統(tǒng)能夠在幾秒鐘內(nèi)提供類似眼科專家的專業(yè)診斷,然后護士們可以在一分鐘內(nèi)做出初步的轉(zhuǎn)診或進一步檢查的建議。
然而。。。
實際情況是,系統(tǒng)要1到2分鐘才能上傳圖片,發(fā)送的圖像達不到標準,護士的判斷也就有了一定的誤差。
那么我們就來具體聊一下他們的實際落地情況。
首先,在第一步,護士拍攝的眼球照片達不到算法的標準。
因為每個診所的條件和資源不盡相同,而要達到算法的高標準,通常需要一個暗室。
光線調(diào)暗了,就確保了患者瞳孔放大,這樣就能夠拍攝高質(zhì)量的眼底照片。
但是在11所診所當中,只有2所才有這樣專門的檢查室。
這會造成什么樣的影響呢?
如果圖像有明顯的DR癥狀,但是很模糊、質(zhì)量很差,那么系統(tǒng)就會自行拒絕,這樣流程就更加復雜,耗費更多的人力物力。
甚至,患者還有可能跑去另一家醫(yī)院檢測。
這還給護士帶來了很大的壓力,因為算法所要求的圖像跟平時常采集的圖像質(zhì)量要求有一定的差距。
接著,可能是因為谷歌研究室的網(wǎng)絡(luò)連接太強大,只需要幾秒就可以上傳。但是在診所里,網(wǎng)絡(luò)并不那么流暢,圖像往往就需要一分多鐘才能上傳。
這樣,篩查進程就變慢了。有一家診所在進行眼底篩查時,網(wǎng)絡(luò)中斷了兩個小時,導致篩查的患者人數(shù)從200人減少到只有100人。
所以,組織篩查流程的護士,因為具有自主性,有的護士就建議患者不參加研究,避免一些不必要的麻煩。
最后,其實還有一個最為關(guān)鍵的問題——患者。
其實這項研究,本身就以患者為中心,如果患者不愿意不滿意,那就有必要進一步改進。
在實驗中,一位診所的護士曾提到:
患者關(guān)心的不是診斷的準確性,而是體驗如何。如果診斷的過程太麻煩,他們寧愿不參加研究,直接找醫(yī)生診斷。
努力了那么久,卻是這樣的結(jié)果,難免有些落差。
但這并不是一個壞消息。
谷歌公布失敗結(jié)果的同時,也強調(diào),有了這樣與醫(yī)生患者的互動,才能更好的改進這項技術(shù)。
同時,也給谷歌這種勇于“正視淋漓的臨床結(jié)果”的態(tài)度,點個贊。
畢竟這個行業(yè)里,報喜的多,吹哨的少。
也提醒我們,醫(yī)療AI,沒那么簡單。
畢竟AI“進軍”醫(yī)療,年頭不少了,但你在醫(yī)院和普通門診場景里,有見到嗎?你愿意把疾病交給AI診斷嗎?
參考鏈接:https://www.blog.google/technology/health/healthcare-ai-systems-put-people-center/
論文地址:https://dl.acm.org/doi/fullHtml/10.1145/3313831.3376718
- 英偉達最新芯片B30A曝光2025-08-20
- AI應用如何落地政企?首先不要卷通用大模型2025-08-12
- 本科必學Dijkstra算法被超越!清華段然團隊打破圖靈獎得主證明的普遍最優(yōu)性2025-08-09
- 智能體邁入L4 時代!納米AI多智能體蜂群,可創(chuàng)作最長10分鐘AI視頻2025-08-06