LSTM之父再度炮轟Hinton:“本田獎(jiǎng)”不該授予他,頒獎(jiǎng)詞有六大謬誤
他和三巨頭的爭論從來沒有停止過
曉查 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
LSTM之父Schmidhuber又來了,他和深度學(xué)習(xí)三巨頭的戰(zhàn)爭從來沒有停止過。
這次他把槍口對(duì)準(zhǔn)了最德高望重的Hinton。
這一切要從半年前的一次頒獎(jiǎng)?wù)f起。
去年9月,Hinton獲得了當(dāng)年的“本田獎(jiǎng)”,該獎(jiǎng)由本田汽車創(chuàng)始人設(shè)立,用于表彰對(duì)科技做出重大貢獻(xiàn)的人士。而Hinton獲獎(jiǎng)的原因當(dāng)然是他在AI領(lǐng)域做出的先驅(qū)性研究。
毫無意外,Schmidhuber又站出來反對(duì)了。
經(jīng)過半年的準(zhǔn)備,Schmidhuber旁征博引,用近百篇參考文獻(xiàn)證明,本田獎(jiǎng)?lì)C給Hinton就是個(gè)錯(cuò)誤。
Schmidhuber說:“我們必須停止將某個(gè)發(fā)明錯(cuò)誤地歸于某人?!鄙洗嗡虶AN之父Goodfellow的論戰(zhàn)也是這個(gè)主題,總之萬物基于LSTM。
細(xì)數(shù)本田獎(jiǎng)“六宗罪”
Schmidhuber在這篇長文中指出,AI中的一些重要技術(shù),比如反向傳播、無監(jiān)督算法、Dropout等等都并非Hinton的首創(chuàng)。
本田獎(jiǎng)的頒獎(jiǎng)詞言過其實(shí),把其他人的研究成果算在了Hinton頭上,存在著六處嚴(yán)重錯(cuò)誤。
一
Hinton創(chuàng)造了許多技術(shù),使AI得以更廣泛地應(yīng)用,其中包括反向傳播算法,該算法構(gòu)成了AI深度學(xué)習(xí)方法的基礎(chǔ)。
Schmidhuber:
Hinton和他的同事們?yōu)樯疃葘W(xué)習(xí)做出了某些重要的貢獻(xiàn)。但是,上述說法是完全錯(cuò)誤的。
他是反向傳播論文的三位作者中的第二位,但他沒有提到3年前Paul Werbos建議用這種方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
而且Hinton的文章甚至都沒有提及Seppo Linnainmaa,這是網(wǎng)絡(luò)中著名的信用分配算法(1970年)的發(fā)明者,該算法也被稱為“自動(dòng)微分的反向模式”。
二
2002年,他為受限玻爾茲曼機(jī)(RBM)引入了一種快速學(xué)習(xí)算法,使他們可以學(xué)習(xí)單層分布式表示,而無需任何標(biāo)記數(shù)據(jù)。這些方法使深度學(xué)習(xí)能夠更好地工作,并引發(fā)了當(dāng)前的深度學(xué)習(xí)革命。
Schmidhuber:
Hinton的無監(jiān)督深度神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練與當(dāng)前的深度學(xué)習(xí)革命無關(guān)。在2010年,我們的團(tuán)隊(duì)表明,可以通過簡單的反向傳播對(duì)前饋神經(jīng)網(wǎng)絡(luò)(FNN)進(jìn)行訓(xùn)練,并且對(duì)于重要的應(yīng)用根本不需要進(jìn)行無監(jiān)督的預(yù)訓(xùn)練。
三
2009年,Hinton和他的兩名學(xué)生使用多層神經(jīng)網(wǎng)絡(luò)在語音識(shí)別方面取得了重大突破,直接導(dǎo)致了語音識(shí)別的顯著改善。
Schmidhuber:
這是非常具有誤導(dǎo)性的。我的實(shí)驗(yàn)室有兩篇論文都應(yīng)用到了神經(jīng)語音識(shí)別中,分別是LSTM和CTC。
我們的團(tuán)隊(duì)在2007年 成功地將經(jīng)過CTC訓(xùn)練的LSTM應(yīng)用于識(shí)別。到2015年,當(dāng)算力變得足夠便宜時(shí),CTC-LSTM大大改善了Google的語音識(shí)別,幾乎所有的智能手機(jī)都支持這種功能。
四
2012年,Hinton和另外兩名學(xué)生證明了深度學(xué)習(xí)比現(xiàn)有的最新技術(shù)識(shí)別圖像中的對(duì)象要好得多,徹底改變了計(jì)算機(jī)視覺。
Schmidhuber:
計(jì)算機(jī)視覺革命靠的是Fukushima、LeCun等一大批70年代學(xué)者發(fā)展的卷積神經(jīng)網(wǎng)絡(luò)。Hinton團(tuán)隊(duì)2012年在ImageNet上的成功很大程度上要?dú)w功于GPU加速CNN運(yùn)算,
我們的瑞士團(tuán)隊(duì)于2011年初創(chuàng)建了第一個(gè)基于GPU的頂級(jí)CNN——DanNet,在Hinton之前就證明了本田獎(jiǎng)?wù)f明的這一點(diǎn)。
在IJCNN 2011上,DanNet贏得了比賽,并成為第一個(gè)在國際比賽中超過人類的視覺識(shí)別模型,而與Hinton經(jīng)常合作的LeCun團(tuán)隊(duì)獲得了第二名。
五
Hinton還發(fā)明了一種被廣泛使用的新方法,稱為“dropout”,該方法通過防止特征檢測器的復(fù)雜配合來減少神經(jīng)網(wǎng)絡(luò)的過擬合。
Schmidhuber:
但是,“dropout”實(shí)際上是Hanson早先的隨機(jī)Delta規(guī)則的一種變體。Hinton在2012年發(fā)表的論文并未引用這一點(diǎn)。
此外,我們已經(jīng)在2011年證明,dropout對(duì)于贏得計(jì)算機(jī)視覺競賽并獲得超過人類的成績并不是必要的 ,唯一真正重要的任務(wù)是使CNN在GPU上更深、更快。
六
“在全球無數(shù)的基于AI的技術(shù)服務(wù)中,毫不夸張地說,如果沒有Hinton創(chuàng)造的結(jié)果,那將是不可能的?!?/p>
Schmidhuber:
大多數(shù)著名的AI應(yīng)用都是其他人的成果,比如計(jì)算機(jī)視覺、語音識(shí)別、語言處理、手寫識(shí)別、機(jī)器人技術(shù)、游戲、醫(yī)療影像等。
其中2~6都依賴于我們的LSTM。2016年,谷歌數(shù)據(jù)中心TPU四分之一以上算力都用于處理LSTM。LSTM已經(jīng)成為20世紀(jì)引用最多的AI論文。
最后,Schmidhuber肯定了Hinton和他的同事們對(duì)神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)做出了重大貢獻(xiàn)。
但是他認(rèn)為:
Hinton最引人注目的工作是推廣了其他人創(chuàng)造的方法,而且在論文里沒有引用來源,一個(gè)重要的發(fā)明者應(yīng)該獎(jiǎng)勵(lì)發(fā)明它的人,而不是是推廣它的人。
本田應(yīng)該糾正這一點(diǎn),而不該讓企業(yè)公關(guān)行為扭曲了科學(xué)事實(shí)。
不幸的是,Hinton不信任前人的重要工作,這不應(yīng)該成為博士生的榜樣,做研究要不惜一切代價(jià)避免絲毫的抄襲。這篇文章也是對(duì)Hinton和某些其他獎(jiǎng)項(xiàng)的含蓄批評(píng)。
網(wǎng)友怎么看
很快這篇長文就在Reddit上的機(jī)器學(xué)習(xí)板塊引起熱議,而這已經(jīng)不是第一次網(wǎng)友為Schmidhuber爭論,都快要成為AI界的“月經(jīng)貼”了。
有些網(wǎng)友早已對(duì)Schmidhuber的自說自話感到厭煩。
他覺得上次來Reddit宣傳Schmidhuber觀點(diǎn)就是小號(hào),這類文章實(shí)在太多了,一遍遍看到類似話題讓人感到乏味,建議將討論關(guān)閉。
也有網(wǎng)友上來就硬核“打臉”:
比如ResNet贏得ImageNet競賽時(shí),Schmidhuber就出來發(fā)文說ResNet不過是HighwayNets的一種變體,實(shí)際上只是前饋LSTM。他還說Hochreiter在1991年首次發(fā)現(xiàn)梯度消失問題。
后來,有人挖出Lang和Witbrock在1988年發(fā)表的一篇論文已經(jīng)發(fā)現(xiàn)了這一點(diǎn)。
每個(gè)人的想法都是對(duì)現(xiàn)有事物的改進(jìn),如果不停追溯下去,那么神經(jīng)網(wǎng)絡(luò)的源頭是不是還要追溯到牛頓和萊布尼茲身上呢。
不過也有一些人對(duì)Schmidhuber表示理解,因?yàn)長STM確實(shí)被廣泛用在語音識(shí)別任務(wù)中。而本田獎(jiǎng)的表彰詞里把他的首創(chuàng)歸功于Hinton,的確讓人難以接受。
可以預(yù)料,未來Schmidhuber關(guān)于AI首創(chuàng)性研究的爭論還會(huì)繼續(xù)下去,你支持他嗎?
參考鏈接:
http://people.idsia.ch/~juergen/critique-honda-prize-hinton.html
https://www.reddit.com/r/MachineLearning/comments/g5ali0/d_schmidhuber_critique_of_honda_prize_for_dr/