MIT長(zhǎng)篇論文:我們熱捧的AI翻譯和自動(dòng)駕駛,需要用技術(shù)性?xún)r(jià)比來(lái)重估
用46頁(yè)、研究千余篇論文告訴你,深度學(xué)習(xí)的算力局限在哪里。
白交 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
深度學(xué)習(xí)在計(jì)算上受到限制并不是一件「新鮮事」。
只是在過(guò)去十年里面,這種計(jì)算限制被「淡化」了。人們專(zhuān)注于「算法」優(yōu)化和「硬件」性能的提升,以及愿意投入更高的「成本」來(lái)獲得更好的性能。
性?xún)r(jià)比這件事,從來(lái)沒(méi)被嚴(yán)肅以待。
但是現(xiàn)在,深度學(xué)習(xí)的計(jì)算需求越來(lái)越大,這些所謂的「方法」開(kāi)始變得無(wú)濟(jì)于事了。
最近,MIT計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室的研究科學(xué)家Neil Thompson發(fā)表了最新研究,主題旗幟鮮明:「Computational Limits of Deep Learning」。
用46頁(yè)、研究千余篇論文告訴你,深度學(xué)習(xí)的算力局限在哪里。
從設(shè)置的生成模型中發(fā)現(xiàn)理論上的算力局限。
首先,來(lái)看看理論上的算力局限。
他們?cè)O(shè)置了一個(gè)生成模型,在可能的1000個(gè)參數(shù)中,有10個(gè)非零參數(shù),并考慮4個(gè)模型來(lái)嘗試發(fā)現(xiàn)這些參數(shù)。
Oracle model:在模型中有完全正確的10個(gè)參數(shù)。
Expert model:模型中恰好有9個(gè)正確參數(shù)和1個(gè)錯(cuò)誤參數(shù)。
Flexible model:擁有模型中所有1000個(gè)潛在參數(shù),并使用「最小二乘估計(jì)」。
Regularized model:跟「Flexible model」一樣,它擁有模型中所有參數(shù),但是是在正則化模型中。
于是,就得出了這樣的結(jié)果——模型復(fù)雜度與正則化對(duì)模型性能和對(duì)計(jì)算要求的影響。
其中模型性能,是以與最佳預(yù)測(cè)器相比預(yù)測(cè)的歸一化平均平方誤差的負(fù)對(duì)數(shù)(以10為底)。
可以看到,隨著樣本量的增加,Oracle model跟Expert model一開(kāi)始表現(xiàn)出更好的性能,而Flexible model和Regularized model這兩個(gè)模型后進(jìn)之勢(shì)十分猛烈。
而與之相應(yīng)的「計(jì)算要求」,F(xiàn)lexible model和Regularized model跟前兩個(gè)壓根就不是一個(gè)量級(jí)的。
這恰好印證了吳恩達(dá)的一個(gè)觀點(diǎn):
當(dāng)數(shù)據(jù)量小的時(shí)候,傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)做得更好,但靈活的深度學(xué)習(xí)模型在數(shù)據(jù)量更大的情況下做得更好 。
那么這篇論文將這一見(jiàn)解推向了更加廣泛的結(jié)論:
靈活的深度學(xué)習(xí)模型有更大的潛力,但也有更大的數(shù)據(jù)和計(jì)算要求。
1058篇論文看到實(shí)際中的算力需求
直接上圖。
可以看到,所有的深度學(xué)習(xí)模型的實(shí)際算力需求,在近幾年里,遠(yuǎn)遠(yuǎn)高于「硬件性能」提升中需要的計(jì)算能力。
為了研究深度學(xué)習(xí)對(duì)計(jì)算的依賴(lài)性,團(tuán)隊(duì)研究了1058篇研究論文。
涵蓋了圖像分類(lèi)(ImageNet基準(zhǔn))、對(duì)象檢測(cè)(MS COCO)、問(wèn)題回答(SQuAD 1.1)、命名實(shí)體識(shí)別(COLLN 2003)和機(jī)器翻譯(WMT 2014 En-to-Fr)等領(lǐng)域。
以圖像分類(lèi)為例。
ImageNet為基準(zhǔn),顯示了ImageNet數(shù)據(jù)集上圖像識(shí)別錯(cuò)誤率的下降及其與這些模型的計(jì)算要求的相關(guān)性。
除此之外,在問(wèn)題回答、命名實(shí)體識(shí)別、機(jī)器翻譯等領(lǐng)域也表現(xiàn)出了對(duì)計(jì)算能力的依賴(lài)性。
除了機(jī)器翻譯(英語(yǔ)到德語(yǔ)),使用的計(jì)算能力的變化很小。其他的模型的依賴(lài)性都很強(qiáng),其中問(wèn)題回答的依賴(lài)性達(dá)到了7.7。
總的來(lái)說(shuō),在深度學(xué)習(xí)的許多領(lǐng)域中,訓(xùn)練模型的進(jìn)展都依賴(lài)于計(jì)算能力的大量增加。
但隨之而來(lái)的,就是「高昂的研究成本」。
MIT助理教授,清華大學(xué)校友韓松,就曾說(shuō)過(guò):
深度神經(jīng)學(xué)習(xí)網(wǎng)絡(luò)在計(jì)算上非常昂貴,這是一個(gè)關(guān)鍵的問(wèn)題。
今年一月,F(xiàn)acebook的AI副總裁Jerome Pesenti在接受《連線》采訪時(shí),就表示,該領(lǐng)域很快就會(huì)「碰壁」。
AI科研成本的持續(xù)上漲,或?qū)е挛覀冊(cè)谠擃I(lǐng)域的研究碰壁,現(xiàn)在已經(jīng)到了一個(gè)需要從成本效益等方面考慮的地步,我們需要清楚如何從現(xiàn)有的計(jì)算力中獲得最大的收益。
現(xiàn)在,用千余篇論文研究再次證實(shí)了這一結(jié)論。
那么對(duì)于現(xiàn)在的機(jī)器翻譯、自動(dòng)駕駛等項(xiàng)目需要重新考慮一下,「如何實(shí)現(xiàn)以最低的成本實(shí)現(xiàn)收益最大化」。
換而言之,作為商業(yè)模型來(lái)落地的AI翻譯和自動(dòng)駕駛項(xiàng)目,是時(shí)候要用「性?xún)r(jià)比」來(lái)重估了。
你覺(jué)得呢?
論文地址:http://www.neil-t.com/moores-law-and-computer-performance/
參考鏈接:https://www.wired.com/story/prepare-artificial-intelligence-produce-less-wizardry/
- 英偉達(dá)最新芯片B30A曝光2025-08-20
- AI應(yīng)用如何落地政企?首先不要卷通用大模型2025-08-12
- 本科必學(xué)Dijkstra算法被超越!清華段然團(tuán)隊(duì)打破圖靈獎(jiǎng)得主證明的普遍最優(yōu)性2025-08-09
- 智能體邁入L4 時(shí)代!納米AI多智能體蜂群,可創(chuàng)作最長(zhǎng)10分鐘AI視頻2025-08-06