“在所有事情上打敗所有人”,微軟多模態(tài)新作橫掃12類任務(wù),連純視覺SOTA都刷新了
曾惜敗于MAE的BEiT殺回來了
夢晨 羿閣 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
僅靠19億參數(shù),只用公共數(shù)據(jù)集,在12個任務(wù)上狂刷SOTA。
微軟這篇多模態(tài)論文剛掛上arXiv不久,就在業(yè)內(nèi)引發(fā)強烈關(guān)注。
有網(wǎng)友將之總結(jié)成“在所有事情上打敗了所有人”。
怎么回事?先來看這張雷達圖:
橙色內(nèi)圈,是各大任務(wù)之前的SOTA。
紫色外圈,就是這篇BEiT-3的結(jié)果,不僅超越,而且是全面超越。
具體一圈看下來,BEiT-3這個多模態(tài)模型不光刷遍多模態(tài)任務(wù),連右上角的純視覺三大經(jīng)典任務(wù)也都刷到SOTA,簡直是六邊形戰(zhàn)士。
知乎上一位同樣做多模態(tài)研究的選手直呼“殺死了比賽”。
其實說起來,微軟BEiT這個系列最開始做的是視覺自監(jiān)督學(xué)習(xí)。
其核心思想與何愷明的MAE一致,甚至比MAE提出的還早一段時間,不過當(dāng)時性能惜敗于MAE。
如今在多模態(tài)方向上繞了一圈后,沒想到能以方式橫掃視覺與多模態(tài)榜單。
取得這種成果的,一般來說還不得是上百億上千億參數(shù)的大大大模型?
但BEiT-3總參數(shù)不過19億,甚至訓(xùn)練數(shù)據(jù)上也沒什么秘密武器,全都用的公開資源。
那么,這一切是如何做到的?
把圖像當(dāng)成一種外語
最關(guān)鍵的一點,論文標(biāo)題和摘要就已經(jīng)指明:
把圖像當(dāng)成一種外語。
這樣一來,文本數(shù)據(jù)是English,圖像數(shù)據(jù)作者開了個小玩笑命名為Imglish,那么圖文對數(shù)據(jù)就相當(dāng)于平行語料。
那么多模態(tài)也好純視覺也罷,都能用同一個預(yù)訓(xùn)練任務(wù)來處理。
在這個基礎(chǔ)上,論文中把所做突破總結(jié)成一個詞,大一統(tǒng)?(Big Convergence)?。
首先,大一統(tǒng)表現(xiàn)在網(wǎng)絡(luò)架構(gòu)上。
通過統(tǒng)一多模態(tài)表示方式,對于不同任務(wù)可以共享一部分參數(shù),采用Multiway(多路)Transformer架構(gòu)作為骨干網(wǎng)絡(luò)。
具體來說就是共享多頭自注意力層,輸出時再根據(jù)具體任務(wù)選擇專用的FFN層。
第二,大一統(tǒng)又表現(xiàn)在預(yù)訓(xùn)練方法上。
既然所有數(shù)據(jù)都能當(dāng)成文本數(shù)據(jù),那就可以全都按照BERT的方法,用掩碼-預(yù)測來做預(yù)訓(xùn)練,稱為Masked Data Modeling。
與基于對比學(xué)習(xí)的訓(xùn)練方法相比,新方法可以選用更小的Batch Size,又能額外降低顯存消耗。
第三,大一統(tǒng)還表現(xiàn)在規(guī)模效應(yīng)上。
統(tǒng)一的預(yù)訓(xùn)練任務(wù)讓模型參數(shù)擴大到10億數(shù)量級后,對下游任務(wù)的泛化能力增強。
另外不同模態(tài)的數(shù)據(jù)集在此方法下也產(chǎn)生規(guī)模效應(yīng)。
團隊特意只用公開數(shù)據(jù)的條件下增加訓(xùn)練數(shù)據(jù)集規(guī)模,結(jié)果超越了一些使用高質(zhì)量私有數(shù)據(jù)的模型。
BEiT-v的訓(xùn)練數(shù)據(jù)來自5個公開數(shù)據(jù)集中的約500萬張圖像和2100萬圖像-文本對;單模態(tài)數(shù)據(jù)則使用來自ImageNet-21K的1400萬張圖像和160GB的文本語料庫。
除此之外,在規(guī)模上也遠小于其它的多模態(tài)預(yù)訓(xùn)練模型,例如ALIGN(18億圖文對)、CLIP(4億圖文對)、SimVLM(18億圖文對,800GB文本)等。
所有這些優(yōu)勢疊加在一起,BEiT-3就以更少的訓(xùn)練數(shù)據(jù)、更小的模型參數(shù)取得更好的性能。
在純視覺任務(wù)(圖像分類、目標(biāo)檢測、語義分割)以及多模態(tài)任務(wù)(視覺推理、視覺問答、圖像描述、微調(diào)的跨模態(tài)檢索、零樣本跨模態(tài)檢索)總共8類任務(wù)下超越各自之前的SOTA。
BEiT-3 這篇論文很簡短,不算參考文獻只有9頁。
但熟悉微軟BEiT系列歷史的話就會知道,這項研究取得成功的意義不僅在于其自身,也不僅是多模態(tài)學(xué)習(xí)的一項突破——
還給視覺大規(guī)模預(yù)訓(xùn)練這個興起不久的領(lǐng)域,帶來新的可能性。
BEiT與MAE,視覺自監(jiān)督的路線之爭
關(guān)于微軟的BEiT系列,全稱為Bidirectional?Encoder representation from?Image?Transformers,比大家熟悉的語言模型BERT多了個“Image”。
其主要思想就是借鑒BERT,把掩碼建模方法用到視覺任務(wù)上,做視覺的自監(jiān)督學(xué)習(xí),解決高質(zhì)量標(biāo)注數(shù)據(jù)難以獲得的難題。
初代BEiT論文于去年6月發(fā)表,比同類工作何愷明的MAE還要早一些,也是MAE論文中的主要比較對象之一。
初代BEiT,惜敗MAE
兩項研究都是用“先掩碼再預(yù)測”來做預(yù)訓(xùn)練任務(wù),最大的區(qū)別在于BEiT會把視覺token離散化、最后模型預(yù)測的是token,而MAE則是直接預(yù)測原始像素。
△初代BEiT的架構(gòu)
在三大視覺任務(wù)上,MAE比當(dāng)時的BEiT略勝一籌。并且因方法更簡單直接,MAE運行起來也要快上不少(3.5倍)。
為了證明在MAE中token化這一步并無必要,何愷明團隊在論文中還特意做了消融試驗。
結(jié)果表明,兩種方法統(tǒng)計上并無顯著差異,對于MAE來說預(yù)測原始像素就足夠了。
不過BEiT團隊并沒有放棄離散化token這個方法,而是沿著這個思路繼續(xù)探索下去。
VL-BEiT,初探多模態(tài)
一年之后,團隊發(fā)表了多模態(tài)模型VL-BEiT,可以算作是現(xiàn)在這篇BEiT-3的雛形。
VL-BEiT已經(jīng)用上了共享Attenion層、再對不同任務(wù)連接不同F(xiàn)FN層的架構(gòu)。
這一思想其實來自同一團隊更早之前一篇論文VLMo,對每個模態(tài)設(shè)置一個專家層的方法稱為MoME(Mixture-of-Modality-Experts)。
不過,VL-BEiT在預(yù)訓(xùn)練任務(wù)上還比較復(fù)雜,會對文本數(shù)據(jù)和圖像數(shù)據(jù)分別做掩碼建模,至于多模態(tài)圖文對數(shù)據(jù)也是分開處理的。
最后結(jié)果,VL-BEiT在多模態(tài)任務(wù)和純視覺任務(wù)上表現(xiàn)都不錯,但還不像現(xiàn)在的BEiT-3這樣大殺四方。
不過別急,突破口很快就被找到。
BEiT v2,把token提升到語義級
BEiT-3發(fā)表僅一周之前,微軟與國科大團隊合作發(fā)表了一篇BEiT v2。
兩者命名方式有細微差別,因為BEiT v2確實代表是BEiT的升級版。
而BEiT-3的3論文中雖未明說,但說的大概不是“第三代”,而是另有所指(稍后揭秘)。
說回到BEiT v2,這篇論文重新專注于純視覺,在初代BEiT基礎(chǔ)上提出了新的語義級tokenizer。
具體來說,BEiT v2引入了矢量量化(Vector-Quantized)和知識蒸餾(Knowledge Distillation)來訓(xùn)練tokenizer。
同樣是做離散化token,新方法能重建知識蒸餾中教師模型的語義特征,大大提高token中攜帶的語義信息,從而提高模型性能。
接下來,教師模型用誰就很關(guān)鍵了。
在對比了FAIR的DINO模型和OpenAI的CLIP模型之后,團隊發(fā)現(xiàn)還是CLIP更香。
最終結(jié)果上,BEiTv2性能反超MAE和這段時間出現(xiàn)的其他方法,重回SOTA。
BEiT-3,集大成者
了解了整個BEiT系列的發(fā)展歷程,最后再來看一下BEiT-3。
論文共同一作董力,點出了模型命名中“3”的含義:
多模態(tài)統(tǒng)一的預(yù)訓(xùn)練方式+共享Attention的多路Transformer+擴大規(guī)模的大一統(tǒng)(Big Convergence)。
如此一來,BEiT-3能在多模態(tài)任務(wù)和視覺任務(wù)中都取得SOTA也就不奇怪了。
這樣一篇論文,自然吸引了行業(yè)內(nèi)很多目光。
魯汶大學(xué)一位教授認為,這代表微軟在AI科研方面趕上谷歌/DeepMind、Meta和OpenAI,“重新坐上了牌桌”。
隨著討論熱度升級,對論文更嚴格的審視目光也多了起來。
谷歌一位研究員指出,論文結(jié)果看起來簡潔又令人印象深刻,就是這雷達圖的坐標(biāo)取值有點不太嚴謹。
知乎上也有網(wǎng)友提問,如果用了CLIP作為教師模型的話,那么來自CLIP高質(zhì)量配對數(shù)據(jù)的貢獻有多少,直接改改CLIP就用又會如何?
作者團隊
最后再來介紹一下作者團隊,BEiT-3相關(guān)研究論文的作者都來自微軟。
三位共同一作分別是Wenhui Wang,Hangbo Bao(鮑航波)和Li Dong(董力)。
其中,鮑航波和董力都是從初代BEiT就參與了研究,一直貫穿VL-BEiT和BEiT v2的發(fā)展,鮑航波更是BEiT和VL-BEiT論文的一作。另一位Wenhui Wang之前也曾參與過VL-BEiT的研究。
通訊作者是微軟亞洲研究院NLP小組的Partner研究經(jīng)理Furu Wei(韋福如)。
BEiT-3論文:
https://arxiv.org/abs/2208.10442
參考鏈接:
[1]BEiT:https://arxiv.org/abs/2208.10442
[2]VL-BEiT:https://arxiv.org/abs/2206.01127
[3]VLMo:https://arxiv.org/abs/2111.02358
[4]BEiT v2:https://arxiv.org/abs/2208.06366
[5]MAE:https://arxiv.org/abs/2111.06377
[6]https://twitter.com/_akhaliq/status/1561883261160259584
[7]https://www.zhihu.com/question/549621097
- 英特爾遭遇「災(zāi)難級」財報!裁員、砍業(yè)務(wù)、董事會主席辭職,甚至給不出2023業(yè)績預(yù)期2023-01-28
- 阿里賈揚清:新一輪AI爆發(fā)的推動機制是工程化和開源 | MEET20232023-01-30
- 未知物體也能輕松識別分割,效果可遷移 | DeepMind研究2023-01-26
- 基因療法讓小鼠剩余壽命翻倍,人類長生不老還遠么?2023-01-26