讓AI自己調(diào)整超參數(shù),谷歌大腦新優(yōu)化器火了,自適應(yīng)不同任務(wù),83個任務(wù)訓(xùn)練加速比經(jīng)典Adam更快
項目代碼已開源
蕭簫 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
還在苦惱怎么給優(yōu)化器調(diào)整更好的參數(shù)嗎?
現(xiàn)在,谷歌大腦搞出了一個新的優(yōu)化器VeLO,無需手動調(diào)整任何超參數(shù),直接用就完事了。
與其他人工設(shè)計的如Adam、AdaGrad等算法不同,VeLO完全基于AI構(gòu)造,能夠很好地適應(yīng)各種不同的任務(wù)。
當(dāng)然,效果也更好。論文作者之一Lucas Beyer將VeLO與其他“重度”調(diào)參的優(yōu)化器進(jìn)行了對比,性能不相上下:
有網(wǎng)友看到了一絲優(yōu)化器進(jìn)步的曙光:
在Adam之后出現(xiàn)了不少優(yōu)化器,卻都表現(xiàn)得非常失敗。這個優(yōu)化器或許確實能表現(xiàn)更好。
所以,這個基于AI的優(yōu)化器是如何打造的?
VeLO究竟是怎么打造的?
在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程中,優(yōu)化器(optimizer)是必不可少的一部分。
△神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程,圖源Thomas Wolf
但AI模型應(yīng)用都這么廣泛了,訓(xùn)練AI模型用的優(yōu)化器卻仍然是人工設(shè)計的,聽起來多少有點不合理。
于是谷歌大腦的研究人員靈機(jī)一動:為何不用AI來做一個優(yōu)化器呢?
設(shè)計上,優(yōu)化器的原理基于元學(xué)習(xí)的思路,即從相關(guān)任務(wù)上學(xué)習(xí)經(jīng)驗,來幫助學(xué)習(xí)目標(biāo)任務(wù)。
相比遷移學(xué)習(xí),元學(xué)習(xí)更強(qiáng)調(diào)獲取元知識,它是一類任務(wù)上的通用知識,可以被泛化到更多任務(wù)上去。
基于這一思想,VeLO也會吸收梯度并自動輸出參數(shù)更新,無需任何超參數(shù)調(diào)優(yōu),并自適應(yīng)需要優(yōu)化的各種任務(wù)。
架構(gòu)上,AI優(yōu)化器整體由LSTM(長短期記憶網(wǎng)絡(luò))和超網(wǎng)絡(luò)MLP(多層感知機(jī))構(gòu)成。
其中每個LSTM負(fù)責(zé)設(shè)置多個MLP的參數(shù),各個LSTM之間則通過全局上下文信息進(jìn)行相互協(xié)作。
訓(xùn)練上,AI優(yōu)化器采用元訓(xùn)練的方式,以參數(shù)值和梯度作為輸入,輸出需要更新的參數(shù)。
經(jīng)過4000個TPU月(一塊TPU運(yùn)行4000個月的計算量)的訓(xùn)練,集各種優(yōu)化任務(wù)之所長后,VeLO終于橫空出世。
比人工調(diào)參優(yōu)化器效果更好
結(jié)果表明,VeLO在83個任務(wù)上的加速效果超過了一系列當(dāng)前已有的優(yōu)化器。
其中y軸是相比Adam加速的倍率,x軸是任務(wù)的比例。
結(jié)果顯示,VeLO不僅比無需調(diào)整超參數(shù)的優(yōu)化器效果更好,甚至比仔細(xì)調(diào)整過超參數(shù)的一些優(yōu)化器效果還好:
與“經(jīng)典老大哥”Adam相比,VeLO在所有任務(wù)上訓(xùn)練加速都更快,其中50%以上的任務(wù)比調(diào)整學(xué)習(xí)率的Adam快4倍以上,14%以上的任務(wù)中,VeLO學(xué)習(xí)率甚至快上16倍。
而在6類學(xué)習(xí)任務(wù)(數(shù)據(jù)集+對應(yīng)模型)的優(yōu)化效果上,VeLO在其中5類任務(wù)上表現(xiàn)效果都與Adam相當(dāng)甚至更好:
值得一提的是,這次VeLO也被部署在JAX中,看來谷歌是真的很大力推廣這個新框架了。
巴特,也有網(wǎng)友認(rèn)為耗費4000個TPU月來訓(xùn)練VeLO,計算量成本過大:
雖然這個進(jìn)展很重要,但它甚至都快趕上GPT-3的訓(xùn)練量了。
目前VeLO已經(jīng)開源,感興趣的小伙伴們可以去試試這個新的AI優(yōu)化器。
One More Thing
前段時間,一位哈佛博士生提了個有意思的想法,得到不少人贊同:
更多論文的作者們也應(yīng)該像演職員表一樣,公開自己在論文中的工作內(nèi)容。
Kareem Carr是生物統(tǒng)計學(xué)領(lǐng)域的博士生,作者貢獻(xiàn)在生物論文中比較常見,不過之前在AI論文中見得不多。
現(xiàn)在,這篇谷歌大腦論文的作者們也這樣做了,誰寫的論文、誰搭建的框架一目了然:
不知道以后會不會成為機(jī)器學(xué)習(xí)圈的新風(fēng)氣(手動狗頭)。
GitHub地址:
https://github.com/google/learned_optimization/tree/main/learned_optimization/research/general_lopt
論文地址:
https://arxiv.org/abs/2211.09760
參考鏈接:
[1]https://twitter.com/jmes_harrison/status/1593422054971174912
[2]https://medium.com/huggingface/from-zero-to-research-an-introduction-to-meta-learning-8e16e677f78a#afeb
[3]https://mp.weixin.qq.com/s/QLzdW6CMkcXWQbGjtOBNwg