何愷明團隊12頁論文新作劍指AIGC!“新CLIP”只需一個trick,訓練速度快3.7倍!性能不降反升
再次上演大道至簡~
楊凈 艷艷 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
何愷明團隊又上新了。
這次,他們的成果圍繞當下最火的AIGC背后的CLIP展開。
——只在該模型的極簡結(jié)構(gòu)上,施加了一個簡單的mask,就讓新模型的速度快了3.7倍。
同時,性能還可以做到不降反升。
團隊表示,希望他們的工作能幫助未來視覺語言模型實現(xiàn)規(guī)?;?。
這波,讓大家直呼:不愧是何愷明,還是熟悉的味道啊~
是的,還是“大道至簡”的feel。
就連論文也一如既往,短短12頁,一行公式也沒有。
一起來拜讀吧。
引入類似MAE的mask
本文提出了一個用來訓練CLIP的快速、簡單且有效的方法FLIP。
Fast Language-Image Pre-training(快速文本-圖像預訓練方法),也是很直接了。
簡單來說,就是基于原有的CLIP架構(gòu),對輸入圖像的那一側(cè), 隨機掩蔽圖像區(qū)塊,之后只對可見區(qū)塊編碼。
△原有CLIP架構(gòu)
更直白來講,對CLIP架構(gòu)引入類似于MAE的思路,于是FLIP架構(gòu)也就變成了這樣。
這樣一來,既可以減少計算量,提高訓練效率,相同的時間可以進行更多圖像-文本樣本學習;每次迭代還能可對比更多樣本,但保持相似的內(nèi)存占用率。
具體來說,本文采用的是ViT作為圖像編碼器。
圖像首先被劃分為一個不重疊的網(wǎng)格,并隨機地遮蔽掉大部分的區(qū)塊。本文采用的遮蔽比例為50%、75%。隨后ViT只對可區(qū)塊編碼,時間復雜度相應降低為原來的二分之一(50%),或者四分之一(75%)。
同樣的方式還可以用到文本遮蔽上。不過研究者認為由于文本編碼器比較小,帶來的加速效果并不能帶來整體的增益。
不過跟MAE不同的是,此次FLIP并沒有對被遮蔽的圖像內(nèi)容重建,也沒有解碼器。
△MAE架構(gòu)
因為他們發(fā)現(xiàn),放棄解碼器和重建可以產(chǎn)生更好的速度。雖然編碼器在被遮蔽的圖像上進行了預訓練,但它可以直接應用在完整圖像上。
相同性能,速度為3.7x
總的來看,采用了mask機制的FLIP相比CLIP,在準確性和訓練時間上取得了平衡,即性能在訓練時間大幅減少的情況下,不降反升。
——尤其是在mask程度高達50%和75%的情況下。
其中,當mask=75%時,F(xiàn)LIP達到和基線模型CLIP相同的性能時,訓練速度是它的3.7x。
這也就意味著,CLIP花費大約2500 TPU-days訓練完成時,F(xiàn)LIP可以大約節(jié)省1800 TPU-days。
這一結(jié)果在ImageNet-1K驗證集上的Zero-shot transfer任務(wù)中得出,每個不同mask比例的模型都在LAION-400M上進行了6.4、12.8或32個epoch的訓練,包含了4億個圖像-文本對。
接著,采用64k batch,50% mask比和unmasked微調(diào)的FLIP,在ImageNet-1K分類數(shù)據(jù)集上的三個主要指標上也獲得了比CLIP更好的性能。
注:是比他們復現(xiàn)出來的CLIP更好,和原始CLIP還差一點,當然,兩者數(shù)據(jù)集不一樣。
而在基于各類數(shù)據(jù)集的大量下游任務(wù)中(包括零樣本分類、文字/圖片檢索等),F(xiàn)LIP同樣表現(xiàn)出了優(yōu)勢,且基本全線碾壓了CLIP(見綠色高亮,幾乎點滿)。
最后,對于FLIP模型的scale up也是一大看點,結(jié)果可圈可點。
可以看到,當增加FLIP的模型大小和數(shù)據(jù)規(guī)模時,F(xiàn)LIP繼續(xù)漲點,尤其增加模型大小時最為明顯(最左)。不過單純增加訓練時長基本沒用(最右)。
從下表我們還能看出,模型大小和數(shù)據(jù)規(guī)模一起增加,效果又上了一個新高度。證明大模型+大數(shù)據(jù)就是好使。
何愷明擔任通訊作者
FLIP一共5位作者。
3位共同一作,都是FAIR研究工程師。其中:
Li Yanghao,本碩畢業(yè)于北京大學計算機科學專業(yè),已發(fā)表多篇頂會;
Fan Haoqi,畢業(yè)于CMU機器人學院;
Hu Ronghang,本科畢業(yè)于清華,2020年博士畢業(yè)于UC伯克利。
通訊作者有兩位:
何愷明和他的同事Christoph Feichtenhofer,擁有同等指導貢獻。
One More Thing
值得一提的是,有細心的網(wǎng)友統(tǒng)計了近三年CVPR引用量最高的論文(截至2022年11月),分別是Moco(2020)、SimSiam(2021)、MAE(2022)。
而這三篇文章唯一的共同作者就是何愷明,其中兩篇還是一作,且都是與自監(jiān)督學習相關(guān)。據(jù)谷歌學術(shù)統(tǒng)計,目前他們的引用量分別為5224、1374、834。
愷明大神還是一如既往地穩(wěn)定發(fā)揮呀~
對于他們團隊的最新力作,你怎么看?
比如,為什么對圖像patch進行了隨機mask,反而讓模型性能不降反升呢?
論文鏈接:
https://arxiv.org/abs/2212.00794
參考鏈接:
[1]https://mp.weixin.qq.com/s/SYrNQ64lby8Bi6sQKX7rCA
[2]https://kaiminghe.github.io/
[3]https://www.zhihu.com/question/570153050/answer/2784717398
- 英偉達最新芯片B30A曝光2025-08-20
- AI應用如何落地政企?首先不要卷通用大模型2025-08-12
- 本科必學Dijkstra算法被超越!清華段然團隊打破圖靈獎得主證明的普遍最優(yōu)性2025-08-09
- 智能體邁入L4 時代!納米AI多智能體蜂群,可創(chuàng)作最長10分鐘AI視頻2025-08-06