谷歌開源預(yù)訓(xùn)練新范式BiT,準(zhǔn)確率提高近25%!網(wǎng)友評價:CV界BERT
大規(guī)模預(yù)訓(xùn)練+簡單遷移策略
魚羊 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
BERT在NLP界無往不利,大大提高了自然語言模型的性能,那么,在計算機(jī)視覺領(lǐng)域,有沒有可能一個CNN打天下?
現(xiàn)在,谷歌大腦給出了一個答案——開源CV預(yù)訓(xùn)練新范式BiT。
BiT(Big Transfer),簡而言之,是一個可以作為任意視覺任務(wù)起點(diǎn)的預(yù)訓(xùn)練ResNet。
在這項研究中,谷歌大腦證明:用大量通用數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的情況下,簡單的遷移策略就能讓CV模型在下游任務(wù)上獲得良好的性能。
研究人員希望,BiT能取代現(xiàn)在常用的ImageNet預(yù)訓(xùn)練模型,推動計算機(jī)視覺研究的發(fā)展。
甚至有網(wǎng)友這樣評價:BiT是CV界的BERT。
預(yù)訓(xùn)練的ResNet
所以BiT具體是怎么一回事呢?
首先,要說到研究人員的3個新發(fā)現(xiàn)。
其一,是數(shù)據(jù)集大小和模型容量之間的關(guān)系。
研究人員利用經(jīng)典的ResNet架構(gòu),在ILSVRC-2012(1.28M)、ImageNet-21K(14M)和JFT(300M)這三個數(shù)據(jù)集上,分別訓(xùn)練了從標(biāo)準(zhǔn)的50層R50x1,到4倍寬、152層深的R152x4等幾個變體。
觀察結(jié)果顯示,想要在更大的數(shù)據(jù)集上獲得更好的預(yù)訓(xùn)練效果,就需要增加模型容量。
另外,在較大的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,不一定會提高性能。但是,通過增加計算預(yù)算和訓(xùn)練時間,性能能得到明顯的改善。
第二個發(fā)現(xiàn)更加重要:訓(xùn)練時間的長短至關(guān)重要。
如果在不調(diào)整計算預(yù)算的情況下,在一個較大的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,訓(xùn)練時間越長,性能反而可能變差。
而針對新的數(shù)據(jù)集調(diào)整訓(xùn)練時間,改進(jìn)效果會非常顯著。
另外,研究人員還發(fā)現(xiàn),用組歸一化(GN)取代批歸一化(BN),對大規(guī)模預(yù)訓(xùn)練而言是有益的。
首先,BN的狀態(tài),包括神經(jīng)激活的均值和方差,需要在預(yù)訓(xùn)練和遷移之間進(jìn)行調(diào)整,而GN是無狀態(tài)的,從而繞開了這個問題。
其次,BN使用的是批處理級統(tǒng)計,當(dāng)大模型不可避免地出現(xiàn)小每設(shè)備(per-device)批處理量時,BN就會變得不可靠。GN同樣回避了這個問題。
所以,研究人員們提出了這樣的預(yù)訓(xùn)練策略:采用標(biāo)準(zhǔn)ResNet,增加深度和寬度,用GNWS替換BN,并在大型通用數(shù)據(jù)集上進(jìn)行更多迭代。
遷移學(xué)習(xí)
接下來,就是針對下游任務(wù)微調(diào)預(yù)訓(xùn)練BiT模型。
研究人員介紹,BiT只需要預(yù)訓(xùn)練一次,此后在針對下游任務(wù)進(jìn)行微調(diào)時,成本很低。
微調(diào)涉及到很多超參數(shù),比如學(xué)習(xí)率、權(quán)重衰減等。
對此,研究人員提出了BiT-HyperRule方法。該方法僅基于高級數(shù)據(jù)集特征,如圖像分辨率和標(biāo)注樣本數(shù)量等。也就是說,BiT并不會對每個下游任務(wù)都進(jìn)行超參數(shù)調(diào)整。這能有效地降低任務(wù)適應(yīng)成本。
并且,對BiT模型進(jìn)行預(yù)訓(xùn)練后,即使下游任務(wù)只有少量標(biāo)注樣本,模型一樣表現(xiàn)良好。
研究人員還觀察到,在這種情況下,增加用于預(yù)訓(xùn)練的通用數(shù)據(jù)量和架構(gòu)容量,所產(chǎn)生的模型適應(yīng)新數(shù)據(jù)的能力也將大幅提高。
實驗結(jié)果
為了驗證BiT的表現(xiàn)是否具有普遍性,研究人員在VTAB-1k上進(jìn)行了實驗。
VTAB-1k是由19個不同任務(wù)組成的任務(wù)套件,每個任務(wù)只有1000個標(biāo)注樣本。
BiT-L模型(在JFT-300M上進(jìn)行預(yù)訓(xùn)練)遷移到這些任務(wù)上后,獲得了76.3%的總得分,比此前的SOTA方法提高了5.8%。
另外,BiT-L在標(biāo)準(zhǔn)CV基準(zhǔn)Oxford Pets、Flowers、CIFAR上的結(jié)果也表明,這種大規(guī)模預(yù)訓(xùn)練 + 簡單遷移的策略在數(shù)據(jù)量適中的情況下也是有效的。
為了進(jìn)一步評估BiT的魯棒性,研究人員還在基于真實照片的ObjectNet數(shù)據(jù)集上對模型進(jìn)行驗證。
BiT-L模型的top-5精度刷新記錄,達(dá)到80%,比此前的SOTA方法提高將近25%。
關(guān)于作者
這篇論文有三位共同一作。
Alexander Kolesnikov,谷歌大腦研究軟件工程師,于2018年在奧地利科技學(xué)院獲機(jī)器學(xué)習(xí)與計算機(jī)視覺博士學(xué)位。
Lucas Beyer ,谷歌大腦研究工程師,2018年博士畢業(yè)于德國亞琛工業(yè)大學(xué)。
翟曉華,谷歌大腦高級研究工程師,博士畢業(yè)于北京大學(xué)。研究方向是表征學(xué)習(xí)、自監(jiān)督學(xué)習(xí)、GAN等。
傳送門
谷歌博客:
https://ai.googleblog.com/2020/05/open-sourcing-bit-exploring-large-scale.html
論文地址:
https://arxiv.org/abs/1912.11370
— 完 —