谷歌開源AI模型“搜索引擎”,NLP、CV都能用
谷歌將AutoML算法庫開源了
蕭簫 發(fā)自 凹非寺? 量子位 報道 | 公眾號 QbitAI
好消息,谷歌將AutoML算法庫開源了!
這個名為“模型搜索”(Model Search)的平臺,不僅可以用多個AutoML算法自動寫出你想要的AI模型,還能幫你選出寫得最好的那個。

最重要的是,各個領(lǐng)域都能用。
也就是說,以往只支持NLP、圖像分類等等單一領(lǐng)域模型搜索的AutoML算法,現(xiàn)在被整合到了一個平臺上,可以幫你構(gòu)建任何AI模型。
現(xiàn)在,無需再重新設(shè)計參數(shù)、或反復(fù)微調(diào),“AI設(shè)計師”就能幫你寫出想要的模型。
“模型搜索”是個什么平臺
此前,AutoML算法已經(jīng)被應(yīng)用到了各個領(lǐng)域,用來減輕神經(jīng)網(wǎng)絡(luò)設(shè)計專家的負擔(dān)。

這種算法,目的是讓AI來設(shè)計神經(jīng)網(wǎng)絡(luò),自動對網(wǎng)絡(luò)深度、層類型、結(jié)構(gòu)、優(yōu)化算法等因素進行合理搭配,效果通常比人工直接設(shè)計更好。
然而,這種由AI來設(shè)計AI模型的方法,會面臨兩個問題。
其一,這些算法通常只能針對某一特定領(lǐng)域,無法被應(yīng)用到其他領(lǐng)域中。

例如針對NLP的AutoML算法,就無法設(shè)計出圖像分類的AI模型。
其二,計算量很大。
之前的NAS和PNAS算法,往往需要訓(xùn)練數(shù)千個模型,才能找到效果最好的。

針對這兩個問題,谷歌現(xiàn)在推出了“模型搜索”開源平臺,致力于解決它們。

這個系統(tǒng)由多個訓(xùn)練器(trainer)、1個搜索算法、1個遷移學(xué)習(xí)算法和1個包含多種評估模型的數(shù)據(jù)庫構(gòu)成。

過程中,每個訓(xùn)練器都會獨立地構(gòu)建模型、進行試驗,但這些訓(xùn)練器能共享數(shù)據(jù),并采用橫向搜索,決定下一步嘗試什么樣的模型。
“模型搜索”能根據(jù)一組預(yù)定義模塊,來構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,每個模塊包含一個經(jīng)典微結(jié)構(gòu),包括LSTM、ResNet或是Transformer中的某些層等等。

這種微結(jié)構(gòu)的模式,也減少了搜索規(guī)模,因為它探索的是這些模型的結(jié)構(gòu),而非更詳細的基本部分。
而為了進一步提高效率和準確性,這一算法還能在訓(xùn)練器完成各種實驗時,進行遷移學(xué)習(xí)。主要通過知識提取和參數(shù)分配兩種方法。

通過知識提取,新模型可以從高性能模型中借鑒損失函數(shù),提高自身準確性;而通過參數(shù)分配,新模型采用之前訓(xùn)練模型中的部分參數(shù),并初始化剩余的參數(shù),就能訓(xùn)練得更快。

在逐漸迭代的過程中,最好的模型就被“搜索”出來了。
谷歌表示,“模型搜索”是個具有自適應(yīng)性、貪婪性、而且比強化學(xué)習(xí)算法收斂速度更快的算法。
這個算法,目前具有如下功能:
-
可以在數(shù)據(jù)上運行多個AutoML算法,可以自動搜索合適的模型結(jié)構(gòu)、模型融合方法,并選擇最佳模型。
-
可以比較在搜索時發(fā)現(xiàn)的不同模型;
-
可以自行設(shè)計特殊的神經(jīng)網(wǎng)絡(luò)層并應(yīng)用。
目前,“模型搜索”支持Tensorflow框架。

也就是說,各模塊都能實現(xiàn)任何以張量為輸入的函數(shù)。
比人類設(shè)計得好,比PNAS更高效
經(jīng)過實驗,“模型搜索”平臺搞出來的AI模型,確實還不錯。
作者們用“模型搜索”平臺,試著寫了個語音AI模型,主要功能是關(guān)鍵字檢測和語言識別。
下圖中,實線是AI寫出來的模型迭代精度,虛線則是此前人工設(shè)計出的SOTA模型。

顯然,無論是最小迭代次數(shù)、還是最后的迭代精度,“模型搜索”平臺用AI寫出的模型,都比人工設(shè)計的要好得多。
也就是說,設(shè)計所用的參數(shù)量更少了(相比于人工設(shè)計的31.5萬,AI只需要18.4萬),精度反而還上升了。
那么,這個“模型搜索”框架的搜索效果,相比于其他用AI寫AI模型的搜索算法,哪個效果更好?
作者們用CIFAR-10數(shù)據(jù)集試了試圖像分類模型。

測試發(fā)現(xiàn),用AutoML嘗試寫了209個模型后,最好的模型就已經(jīng)達到了91.83%的精確度。
而此前,NasNet需要嘗試5807次、PNAS需要嘗試1160次,才能達到相同的精度。
也就是說,用這個平臺設(shè)計的AI模型,不僅能達到在某些領(lǐng)域達到比人類設(shè)計更好的效果,還比其他“AI設(shè)計師”速度更快。
不想辛苦調(diào)參的話,這絕對是個非常理想的模型設(shè)計平臺了。
不包含全部AutoML算法
所以,谷歌當(dāng)真就把自己之前的收費項目開源了?
不不不。
更高級的AutoML算法,目前還是要收費的。
這是個名為AutoML Tables的項目,無需寫代碼,它就能幫你自動構(gòu)建和部署最先進的機器學(xué)習(xí)模型。

而性能最優(yōu)的AutoML算法,目前都包含在這里面了。
目前,谷歌已經(jīng)將AutoML、MLOps、AI Platform整合到一起,成為了一個更大的AI Platform平臺。
當(dāng)然,也是要付費的。
也就是說,目前開源的這個“模型搜索”平臺,只包含一部分AutoML算法。
作者介紹
Hanna Mazzawi,谷歌研究工程師,研究方向是機器學(xué)習(xí)、算法設(shè)計和分析、數(shù)學(xué)軟件。

Xavi Gonzalvo,碩博均畢業(yè)于西班牙拉蒙尤以大學(xué)(Ramon Llull University),目前在谷歌任研究科學(xué)家,從事機器智能相關(guān)的工作。
如果想快速寫出需要的AI模型,可以上手這個項目了~
項目地址: https://github.com/google/model_search
參考鏈接: https://cloud.google.com/automl-tables? https://ai.googleblog.com/2021/02/introducing-model-search-open-source.html
版權(quán)所有,未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用,違者必究。