AI預(yù)測(cè)心力衰竭,準(zhǔn)確率竟能100%?!AI研究引發(fā)強(qiáng)烈質(zhì)疑,網(wǎng)友:門外漢濫用機(jī)器學(xué)習(xí)
栗子 曉查 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
只要輸入一次心跳的波譜。
就能判斷一個(gè)人有沒有發(fā)生心力衰竭 (CHF) ,準(zhǔn)確率100%。
這是英國(guó)華威大學(xué)領(lǐng)銜的團(tuán)隊(duì),用機(jī)器學(xué)習(xí)方法做出的新成果。
還登上了影響因子2.943的Biomedical Signal Processing and Control期刊。
準(zhǔn)確率眼看就要突破天際,高得反常識(shí),招來(lái)了鋪天蓋地的質(zhì)疑:
主要的疑點(diǎn)有兩個(gè):疑似過擬合 (沒有規(guī)律硬拗出規(guī)律) ,疑似數(shù)據(jù)泄漏 (訓(xùn)練集和測(cè)試集有重疊) 。
一日之間,話題在Reddit論壇的熱度已經(jīng)超過了400:
那么,來(lái)看看到底發(fā)生了什么。
怎樣的研究
這項(xiàng)研究,是依靠心電圖 (ECG) 來(lái)推測(cè),人有沒有出現(xiàn)充血性心力衰竭 (CHF) ,也就是人們常說(shuō)的心力衰竭:
指的是心臟沒能推送足夠的血量,維持身體所需。
來(lái)自華威大學(xué)、佛羅倫薩大學(xué)以及薩里大學(xué)的科學(xué)家們,想讓AI去看看心力衰竭的心電圖波形有沒有規(guī)律可尋。
于是,團(tuán)隊(duì)設(shè)計(jì)了一維的卷積神經(jīng)網(wǎng)絡(luò) (CNN) ,用公開的心電圖數(shù)據(jù)集,訓(xùn)練它給心電圖做二分類:正常 vs 心衰。
訓(xùn)練完成后,團(tuán)隊(duì)用490,505次心跳的數(shù)據(jù)集測(cè)試了模型,結(jié)果訓(xùn)練集上的分類準(zhǔn)確率達(dá)到了99.9%:
論文還寫到,重要的是模型發(fā)現(xiàn)了心衰的心電圖,有非常突出的形態(tài)特征可以用于診斷:
不過,研究用的數(shù)據(jù)集受到了質(zhì)疑,準(zhǔn)確率受到了質(zhì)疑,連AI發(fā)現(xiàn)的重要特征也受到了質(zhì)疑。
實(shí)驗(yàn)的漏洞
乍一看,論文的樣本數(shù)量似乎很大,論文作者采集了275,974正常的ECG心跳樣本和214,531個(gè)心臟衰竭患者的樣本,總數(shù)量達(dá)到了49萬(wàn)個(gè)。
但仔細(xì)一看,其實(shí)樣本的數(shù)量是非常少的,總共也只有33個(gè)人,一個(gè)人多個(gè)的心跳不是獨(dú)立樣本。
心衰患者的數(shù)據(jù)來(lái)自BIDMC數(shù)據(jù)集,每秒采樣250個(gè)樣本;正常人的數(shù)據(jù)來(lái)自MIT-BIH,每秒采樣128個(gè)樣本。
當(dāng)采用兩個(gè)不同數(shù)據(jù)集時(shí),需要對(duì)其中一組數(shù)據(jù)進(jìn)行下采樣,匹配另一組數(shù)據(jù)的頻率。不過研究人員已經(jīng)注意到這一點(diǎn),在訓(xùn)練前做了預(yù)處理,大漏洞不在這里。
但之后的訓(xùn)練過程,就令人產(chǎn)生了數(shù)據(jù)泄漏?(Data Leakage) 的質(zhì)疑。
首先,數(shù)據(jù)集被隨機(jī)分成三個(gè)較小的子集,分別進(jìn)行訓(xùn)練、驗(yàn)證和測(cè)試(相當(dāng)于總數(shù)據(jù)的50%、25%和25%)。
每個(gè)人的心跳數(shù)據(jù)只包含在了一個(gè)數(shù)據(jù)集中,沒有在多個(gè)數(shù)據(jù)集里重復(fù)出現(xiàn)。因?yàn)樽髡咧?,如果一個(gè)人的心跳數(shù)據(jù),在訓(xùn)練集和測(cè)試集都出現(xiàn),存在交叉驗(yàn)證的可能性。
但是這又帶來(lái)一個(gè)問題,測(cè)試集中只有少數(shù)幾個(gè)人的數(shù)據(jù),這就相當(dāng)于拿訓(xùn)練后的模型在個(gè)別樣本上進(jìn)行驗(yàn)證,結(jié)果的可靠性也大打折扣。
為了保證結(jié)果在更多的數(shù)據(jù)上進(jìn)行測(cè)試,作者又想到了另一種方法,將樣本做10次隨機(jī)分割,分別進(jìn)行10次訓(xùn)練和評(píng)估,以減少分類結(jié)果帶來(lái)的差異性。
雖然一開始的方法避免了單次實(shí)驗(yàn)的交叉驗(yàn)證,但是多次實(shí)驗(yàn)取平均,等于又把交叉驗(yàn)證的問題帶了回來(lái),造成了數(shù)據(jù)泄露(Data Leakage)。
然后,作者一個(gè)只有33個(gè)樣本的數(shù)據(jù)上,用了三個(gè)1D卷積神經(jīng)網(wǎng)絡(luò)層進(jìn)行擬合,準(zhǔn)確率近乎100%,難免不讓人覺得是過擬合。
在訓(xùn)練集上避免過擬合,本來(lái)是“煉丹”過程的常識(shí),卻被作者作為一項(xiàng)優(yōu)點(diǎn)來(lái)宣傳。難怪有網(wǎng)友在吐槽:這是一篇門外漢寫的機(jī)器學(xué)習(xí)論文。
100%對(duì)于非機(jī)器學(xué)習(xí)領(lǐng)域的人來(lái)說(shuō)是一件令人驚嘆的事情,而專業(yè)人士看到只會(huì)說(shuō)“什么鬼”。
這篇論文還被發(fā)表在正式期刊上,有網(wǎng)友感嘆:審稿人的水平哪去了,這個(gè)問題看不出來(lái)?
另外,Hacker News上還有人 (@Cass) 說(shuō),AI總結(jié)出的兩類心電圖 (正常vs心衰),根本就有問題:
看圖4 (下圖) ,正常心電圖的“平均”波形,壓根不是這樣。P太平了,Q太大了,R太鈍了,S和T之間也不應(yīng)該有那個(gè)額外的波。
如果,提取的正常人平均值都能這么混亂,得出怎樣的結(jié)果都不奇怪了。
一直被濫用
這篇論文在Reddit上引起了激烈討論。
隨著機(jī)器學(xué)習(xí)大熱,很多其他領(lǐng)域的研究者,也開始用機(jī)器學(xué)習(xí)模型,來(lái)執(zhí)行自己領(lǐng)域的任務(wù)。而跨學(xué)科的研究人員,如果對(duì)機(jī)器學(xué)習(xí)的理解不足,很容易出現(xiàn)大問題。
比如,數(shù)據(jù)泄漏的問題,讓人想起了去年8月在Nature發(fā)表的一篇預(yù)測(cè)余震的論文,來(lái)自谷歌和哈佛。今年,一位名叫Rajiv Shah的數(shù)據(jù)科學(xué)家用自己的實(shí)驗(yàn)證明,這篇文章是“深度學(xué)習(xí)的錯(cuò)誤用法”。
他一共提出了三個(gè)致命缺陷:
最大的缺陷就是數(shù)據(jù)泄漏。算法在測(cè)試集上的表現(xiàn),遠(yuǎn)遠(yuǎn)超過訓(xùn)練集。查看數(shù)據(jù)集發(fā)現(xiàn),測(cè)試集和訓(xùn)練集,包含許多相同的地震。把重疊部分去掉之后,模型的表現(xiàn)下降到了傳統(tǒng)方法的水平。
第二個(gè)缺陷是,用隨機(jī)森林這樣的簡(jiǎn)單方法,也得出了相似的表現(xiàn)和結(jié)論。能用簡(jiǎn)單的方法,卻用了復(fù)雜的方法,這就是消融實(shí)驗(yàn) (Ablation Studies) 沒做好。
第三個(gè)缺陷是,論文中訓(xùn)練用了470萬(wàn)行數(shù)據(jù),而Shah用1500行數(shù)據(jù),就得到了幾乎一樣的表現(xiàn)。Shah認(rèn)為,能用少量的數(shù)據(jù)解決問題,就不該用成千上萬(wàn)倍的數(shù)據(jù)量。
這次重大的質(zhì)疑,引起了業(yè)內(nèi)的巨大關(guān)注,甚至有許多同行都來(lái)一起找Bug:
10月2日,Nature又刊登了一篇質(zhì)疑這項(xiàng)余震預(yù)測(cè)的論文,證明一個(gè)神經(jīng)元的預(yù)測(cè)效果比一個(gè)六層的網(wǎng)絡(luò)還要好,相當(dāng)于否定了一年前的研究成果。
這篇后發(fā)的論文指出,僅使用兩個(gè)參數(shù)的邏輯回歸模型,可以達(dá)到與深度學(xué)習(xí)方法相同的預(yù)測(cè)能力。
機(jī)器學(xué)習(xí)是個(gè)好工具,但在使用它們的時(shí)候,需要充分了解它的特性、使用方法和局限性,而不是一味地套用,簡(jiǎn)單粗暴地進(jìn)行數(shù)據(jù)擬合。
目前機(jī)器學(xué)習(xí)還處在技術(shù)曲線的頂峰,等到熱潮褪去,才能知道誰(shuí)是真正的干貨。
新聞報(bào)道:
https://www.surrey.ac.uk/news/new-ai-neural-network-approach-detects-heart-failure-single-heartbeat-100-accuracy
https://www.forbes.com/sites/nicholasfearn/2019/09/12/artificial-intelligence-detects-heart-failure-from-one-heartbeat-with-100-accuracy/#228e5a067ac9
論文地址:
https://www.sciencedirect.com/science/article/pii/S1746809419301776
— 完 —
- 馬云正式卸任后,阿里巴巴開盤跌0.87%2019-09-10
- 亞馬遜在華拓展云計(jì)算團(tuán)隊(duì),挑戰(zhàn)阿里巴巴和騰訊2019-10-16
- AI獨(dú)角獸云知聲,已完成一期科創(chuàng)板IPO輔導(dǎo)2019-10-17
- IDC:今年上半年中國(guó)公有云服務(wù)市場(chǎng)規(guī)模達(dá)54.2億美元2019-11-07