LSTM之父再稱ResNet、GAN等五大網(wǎng)絡(luò)都有他的功勞,網(wǎng)友卻說:自負大于引用數(shù)
“看我,我最棒”
“現(xiàn)在引用最多的幾個神經(jīng)網(wǎng)絡(luò)都是建立在我的實驗室成果之上的!”
能說出此話的不是別人,正是在深度學(xué)習(xí)領(lǐng)域作出了巨大貢獻的LSTM之父——Jürgen Schmidhube。
但這也不是他第一次為“自己的開創(chuàng)性工作沒得到足夠的尊重”而公開發(fā)聲。

在這篇“直抒胸臆”的推文里,他還專門鏈出了個博客,里面歷數(shù)了他和他的團隊在LSTM、ResNet、AlexNet和VGG、GAN以及Transformer變體——這五個赫赫有名的神經(jīng)網(wǎng)絡(luò)上的早期貢獻。
來看看他是怎么說的。
“五大神經(jīng)網(wǎng)絡(luò)都是建立在我的實驗室成果之上”
首先是LSTM?(Long Short-Term Memory)。這是Jürgen和他的學(xué)生們在1997年提出的一種新的RNN,解決了神經(jīng)網(wǎng)絡(luò)長短期記憶的難題。
根據(jù)谷歌學(xué)術(shù),這是20世紀被引用次數(shù)最多的神經(jīng)網(wǎng)絡(luò)。
現(xiàn)在已經(jīng)“滲透”進醫(yī)療保健、學(xué)習(xí)機器人(learning robot)、游戲、語音處理、機器翻譯等領(lǐng)域,每天被無數(shù)人使用數(shù)十億次。
其厲害之處不用多說,大家對Jürgen的這項成就也沒啥異議。主要看另外四個:
ResNet
作為21世紀被引用次數(shù)最多的神經(jīng)網(wǎng)絡(luò),Jürgen說它引用了他們的Highway Net、然后把它做成了另一個版本。
Highway Net,是他的學(xué)生們發(fā)明的第一個具有100多層的真正的深度前饋神經(jīng)網(wǎng)絡(luò)。
它用跳層連接解決了非常深度的神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,其性能也與ImageNet上的ResNet差不多。
這倆的爭議很多人都有分析過,雖然兩者都用了跳層連接技術(shù),但選擇的機制不同;多數(shù)人認為ResNet應(yīng)該只是受到了Highway Net的啟發(fā)。
但Jürgen不這么認為,他還專門強調(diào)了一下,Highway Net也是基于LSTM的思想才得以解決深度訓(xùn)練的問題的。意思是ResNet“一脈相承”了他兩個成果。

AlexNet和VGG Net
對于這倆在引用次數(shù)排第二、第三的神經(jīng)網(wǎng)絡(luò),Jürgen表示:都類似DanNet——他們在2011年提出的第一個贏得圖像識別比賽的深度卷積神經(jīng)網(wǎng)絡(luò),并且DanNet在AlexNet出現(xiàn)之前贏了4場。
因為2012年出生的AlexNet論文中引用了DanNet,用到了Jürgen團隊提出的摒棄無監(jiān)督預(yù)訓(xùn)練為純監(jiān)督學(xué)習(xí)的DNN思想。
而VGG則是同樣采用了DanNet使用小卷積濾波器增加神經(jīng)網(wǎng)絡(luò)深度的track。
GAN
博文中寫道,大名鼎鼎的GAN也是Jürgen本人在1990年提出的Adversarial Curiosity原則的應(yīng)用,它們都由兩個神經(jīng)網(wǎng)絡(luò)進行“對抗”(Adversarial Curiosity則是一個叫生成器,一個叫預(yù)測器)。
“炮轟”GAN可不是第一次了,Jürgen甚至還公開和GAN的提出者battle過,但很多學(xué)者分析,GAN并不能視為Adversarial Curiosity的一個簡單變種。
Transformer
最后一個是Transformer,如今風(fēng)靡的Transformer又和Jürgen有什么關(guān)系呢?
Jürgen說,Transformer的變體-線性Transformer,在形式上相當與他于1991年提出的快速權(quán)重存儲系統(tǒng)(Fast Weight Programmers)的延伸(除了標準化部分)。
真的是這樣的嗎?
不得不說,Jürgen的某些思想非常超前,但其實上面的這些內(nèi)容都不是Jürgen第一次公開說明了。
一如既往,網(wǎng)友們的回應(yīng)褒貶不一。
追捧他的表示:
“這是Schmidhuber的世界,我們凡人只是居住在其中!”

“Schmidhuber is all you need.”

但更多的人都是在承認他巨大貢獻的同時,指出他過于美化自己的貢獻,想把這二三十年所有相關(guān)的進步都歸功于他。

就像博文中提到的ResNets,許多人的觀點認為它只是HighwayNets中一個非常微不足道的延伸;
而Transformer則是在發(fā)展壯大了三年之后才被Jürgen聯(lián)系到了Fast Weight Programmers身上;(如果真的那么相關(guān),怎么一開始不指出來)

上面提到的種種幾乎和他的團隊成就沒啥關(guān)系,沒有他的那些論文,那些模型照樣會被提出來。
而他最重要的兩個貢獻是:用LSTM思想解決RNN訓(xùn)練難題以及梯度消失難題的理論分析。但這都還主要是他的學(xué)生Hochreiter領(lǐng)導(dǎo)的。

因此有人覺得Jürgen這種行為簡直就像個孩子一直在說“看我,我是最棒的”一樣:

甚有直言:“他的自負大于他的引用次數(shù)”。

你覺得呢?
[2]https://twitter.com/SchmidhuberAI/status/1435499479306809346
[3]https://people.idsia.ch/~juergen/most-cited-neural-nets.html
—完—
@量子位 · 追蹤AI技術(shù)和產(chǎn)品新動態(tài)
深有感觸的朋友,歡迎贊同、關(guān)注、分享三連?’?’ ? ?
- 北大開源最強aiXcoder-7B代碼大模型!聚焦真實開發(fā)場景,專為企業(yè)私有部署設(shè)計2024-04-09
- 剛剛,圖靈獎揭曉!史上首位數(shù)學(xué)和計算機最高獎“雙料王”出現(xiàn)了2024-04-10
- 8.3K Stars!《多模態(tài)大語言模型綜述》重大升級2024-04-10
- 谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用2024-04-10