国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

何愷明團隊12頁論文新作劍指AIGC！“新CLIP”只需一個trick，訓練速度快3.7倍！性能不降反升

白交 2022-12-03 13:38:19 來源：量子位

再次上演大道至簡~

楊凈艷艷發(fā)自凹非寺

量子位 | 公眾號 QbitAI

何愷明團隊又上新了。

這次，他們的成果圍繞當下最火的AIGC背后的CLIP展開。

——只在該模型的極簡結(jié)構(gòu)上，施加了一個簡單的mask，就讓新模型的速度快了3.7倍。

同時，性能還可以做到不降反升。

團隊表示，希望他們的工作能幫助未來視覺語言模型實現(xiàn)規(guī)?；?。

這波，讓大家直呼：不愧是何愷明，還是熟悉的味道啊～

是的，還是“大道至簡”的feel。

就連論文也一如既往，短短12頁，一行公式也沒有。

一起來拜讀吧。

引入類似MAE的mask

本文提出了一個用來訓練CLIP的快速、簡單且有效的方法FLIP。

Fast Language-Image Pre-training（快速文本-圖像預訓練方法），也是很直接了。

簡單來說，就是基于原有的CLIP架構(gòu)，對輸入圖像的那一側(cè)，隨機掩蔽圖像區(qū)塊，之后只對可見區(qū)塊編碼。

△原有CLIP架構(gòu)

更直白來講，對CLIP架構(gòu)引入類似于MAE的思路，于是FLIP架構(gòu)也就變成了這樣。

這樣一來，既可以減少計算量，提高訓練效率，相同的時間可以進行更多圖像-文本樣本學習；每次迭代還能可對比更多樣本，但保持相似的內(nèi)存占用率。

具體來說，本文采用的是ViT作為圖像編碼器。

圖像首先被劃分為一個不重疊的網(wǎng)格，并隨機地遮蔽掉大部分的區(qū)塊。本文采用的遮蔽比例為50%、75%。隨后ViT只對可區(qū)塊編碼，時間復雜度相應降低為原來的二分之一（50%），或者四分之一（75%）。

同樣的方式還可以用到文本遮蔽上。不過研究者認為由于文本編碼器比較小，帶來的加速效果并不能帶來整體的增益。

不過跟MAE不同的是，此次FLIP并沒有對被遮蔽的圖像內(nèi)容重建，也沒有解碼器。

△MAE架構(gòu)

因為他們發(fā)現(xiàn)，放棄解碼器和重建可以產(chǎn)生更好的速度。雖然編碼器在被遮蔽的圖像上進行了預訓練，但它可以直接應用在完整圖像上。

相同性能，速度為3.7x

總的來看，采用了mask機制的FLIP相比CLIP，在準確性和訓練時間上取得了平衡，即性能在訓練時間大幅減少的情況下，不降反升。

——尤其是在mask程度高達50%和75%的情況下。

其中，當mask=75%時，F(xiàn)LIP達到和基線模型CLIP相同的性能時，訓練速度是它的3.7x。

這也就意味著，CLIP花費大約2500 TPU-days訓練完成時，F(xiàn)LIP可以大約節(jié)省1800 TPU-days。

這一結(jié)果在ImageNet-1K驗證集上的Zero-shot transfer任務(wù)中得出，每個不同mask比例的模型都在LAION-400M上進行了6.4、12.8或32個epoch的訓練，包含了4億個圖像-文本對。

接著，采用64k batch，50% mask比和unmasked微調(diào)的FLIP，在ImageNet-1K分類數(shù)據(jù)集上的三個主要指標上也獲得了比CLIP更好的性能。

注：是比他們復現(xiàn)出來的CLIP更好，和原始CLIP還差一點，當然，兩者數(shù)據(jù)集不一樣。

而在基于各類數(shù)據(jù)集的大量下游任務(wù)中（包括零樣本分類、文字/圖片檢索等），F(xiàn)LIP同樣表現(xiàn)出了優(yōu)勢，且基本全線碾壓了CLIP（見綠色高亮，幾乎點滿）。

最后，對于FLIP模型的scale up也是一大看點，結(jié)果可圈可點。

可以看到，當增加FLIP的模型大小和數(shù)據(jù)規(guī)模時，F(xiàn)LIP繼續(xù)漲點，尤其增加模型大小時最為明顯（最左）。不過單純增加訓練時長基本沒用（最右）。

從下表我們還能看出，模型大小和數(shù)據(jù)規(guī)模一起增加，效果又上了一個新高度。證明大模型+大數(shù)據(jù)就是好使。

何愷明擔任通訊作者

FLIP一共5位作者。

3位共同一作，都是FAIR研究工程師。其中：

Li Yanghao，本碩畢業(yè)于北京大學計算機科學專業(yè)，已發(fā)表多篇頂會；

Fan Haoqi，畢業(yè)于CMU機器人學院；

Hu Ronghang，本科畢業(yè)于清華，2020年博士畢業(yè)于UC伯克利。

通訊作者有兩位：

何愷明和他的同事Christoph Feichtenhofer，擁有同等指導貢獻。

One More Thing

值得一提的是，有細心的網(wǎng)友統(tǒng)計了近三年CVPR引用量最高的論文（截至2022年11月），分別是Moco（2020）、SimSiam（2021）、MAE（2022）。

而這三篇文章唯一的共同作者就是何愷明，其中兩篇還是一作，且都是與自監(jiān)督學習相關(guān)。據(jù)谷歌學術(shù)統(tǒng)計，目前他們的引用量分別為5224、1374、834。

愷明大神還是一如既往地穩(wěn)定發(fā)揮呀~

對于他們團隊的最新力作，你怎么看？

比如，為什么對圖像patch進行了隨機mask，反而讓模型性能不降反升呢？

論文鏈接：
https://arxiv.org/abs/2212.00794
參考鏈接：
[1]https://mp.weixin.qq.com/s/SYrNQ64lby8Bi6sQKX7rCA
[2]https://kaiminghe.github.io/
[3]https://www.zhihu.com/question/570153050/answer/2784717398

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

何愷明

白交

英偉達最新芯片B30A曝光2025-08-20
AI應用如何落地政企？首先不要卷通用大模型2025-08-12
本科必學Dijkstra算法被超越！清華段然團隊打破圖靈獎得主證明的普遍最優(yōu)性2025-08-09
智能體邁入L4 時代！納米AI多智能體蜂群，可創(chuàng)作最長10分鐘AI視頻2025-08-06

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

何愷明團隊12頁論文新作劍指AIGC！“新CLIP”只需一個trick，訓練速度快3.7倍！性能不降反升

引入類似MAE的mask

相同性能，速度為3.7x

何愷明擔任通訊作者

One More Thing

相關(guān)閱讀

何愷明謝賽寧解剖擴散模型，新作剛剛出爐

何愷明新作再戰(zhàn)AI生成：入職MIT后首次帶隊，奧賽雙料金牌得主鄧明揚參與

何愷明團隊最新力作RegNet：超越EfficientNet，GPU上提速5倍，這是網(wǎng)絡(luò)設(shè)計新范式 | CVPR 2020

何愷明LeCun改造Transformer！9行代碼替代歸一化性能不減還加速

何愷明時隔2年再發(fā)一作論文：為視覺大模型開路，“CVPR 2022最佳論文候選預定”

NeurIPS神仙打架：李飛飛180頁PPT談視覺智能，Bengio同OpenAI員工吵架，何愷明談AI宿命論

熱門文章

標準化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應：下次不遙控了

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學AI了！和奔馳麥當勞一起拜師百度

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

何愷明團隊12頁論文新作劍指AIGC！“新CLIP”只需一個trick，訓練速度快3.7倍！性能不降反升

引入類似MAE的mask

相同性能，速度為3.7x

何愷明擔任通訊作者

One More Thing

相關(guān)閱讀

何愷明謝賽寧解剖擴散模型，新作剛剛出爐

何愷明新作再戰(zhàn)AI生成：入職MIT后首次帶隊，奧賽雙料金牌得主鄧明揚參與

何愷明團隊最新力作RegNet：超越EfficientNet，GPU上提速5倍，這是網(wǎng)絡(luò)設(shè)計新范式 | CVPR 2020

何愷明LeCun改造Transformer！9行代碼替代歸一化性能不減還加速

何愷明時隔2年再發(fā)一作論文：為視覺大模型開路，“CVPR 2022最佳論文候選預定”

NeurIPS神仙打架：李飛飛180頁PPT談視覺智能，Bengio同OpenAI員工吵架，何愷明談AI宿命論

熱門文章

標準化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應：下次不遙控了

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學AI了！和奔馳麥當勞一起拜師百度

何愷明團隊12頁論文新作劍指AIGC！“新CLIP”只需一個trick，訓練速度快3.7倍！性能不降反升

相同性能，速度為3.7x

何愷明謝賽寧解剖擴散模型，新作剛剛出爐

何愷明新作再戰(zhàn)AI生成：入職MIT后首次帶隊，奧賽雙料金牌得主鄧明揚參與

何愷明團隊最新力作RegNet：超越EfficientNet，GPU上提速5倍，這是網(wǎng)絡(luò)設(shè)計新范式 | CVPR 2020

何愷明LeCun改造Transformer！9行代碼替代歸一化性能不減還加速

何愷明時隔2年再發(fā)一作論文：為視覺大模型開路，“CVPR 2022最佳論文候選預定”

NeurIPS神仙打架：李飛飛180頁PPT談視覺智能，Bengio同OpenAI員工吵架，何愷明談AI宿命論

標準化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應：下次不遙控了

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學AI了！和奔馳麥當勞一起拜師百度