還需要“注意力層”嗎?一堆“前饋層”在ImageNet上表現(xiàn)得出奇得好
牛津博士和谷歌同時發(fā)現(xiàn)
水木番 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
谷歌昨天提出的MLP-Mixer,可謂是小火了一把。
簡單來說,就是不需要卷積模塊、注意力機制,就可以達(dá)到與CNN、Transformer相媲美的圖像分類性能。
但看到新聞的牛津大學(xué)博士Luke Melas-Kyriazi,卻沮喪了好一會:
因為大約一個月前,他就發(fā)現(xiàn)了可以用前饋層替換注意力層,并已經(jīng)獲得了很好的效果。
也就是說,他的方法和MLP-Mixer差不多……
所以當(dāng)他看到報紙時,他甚至一度曾考慮報廢自己的成果。
但他最終還是把成果發(fā)在了arXiv上,全文包括了4頁的報告和代碼。
讓我們來看看他的成果。
研究原理
視覺transformer在圖像分類和其他視覺任務(wù)上的強大性能,通常歸因于其multi-head 注意力層的設(shè)計。
但是,目前尚不清楚引起這種強勁表現(xiàn)的程度。
而在這份簡短的報告中,他亮出了核心觀念:
注意力層是必要的嗎?
具體來說,他將視覺transformer中的注意力層,替換為應(yīng)用于patch dimension的前饋層。
最終產(chǎn)生的體系結(jié)構(gòu),只是一系列以交替的方式應(yīng)用于patch和特征dimension的前饋層。
在ImageNet上進(jìn)行的實驗中,此架構(gòu)的性能出奇地好:
基于ViT / DeiT的模型,可達(dá)到74.9%的top-1精度,而ViT和DeiT分別為77.9%和79.9%。
他的結(jié)果表明,無需注意力層,視覺transformer的其他方面,例如patch embedding,可能是其性能強大的主要原因。
他也希望這些結(jié)果能幫助大家,花更多的時間,來理解為什么目前的模型能像現(xiàn)在這樣有效。
MLP-Mixer的原理
再回頭看看谷歌的MLP-Mixer。
MLP-Mixer是一種僅基于多層感知機(MLP)的體系結(jié)構(gòu)。
MLP-Mixer包含兩種類型的層:一種具有獨立應(yīng)用于圖像patches的MLP(即“混合”每個位置特征),另一種具有跨patches應(yīng)用的MLP(即“混合”空間信息)。
MLP-Mixer用Mixer的MLP來替代ViT的transformer,減少了特征提取的自由度,并且巧妙的可以交替進(jìn)行patch間信息交流和patch內(nèi)信息交流。
從結(jié)果上來看,純MLP貌似也是可行的,而且省去了transformer復(fù)雜的結(jié)構(gòu),變的更加簡潔。
你品,你細(xì)品!
怎么樣,是不是很像?
Luke Melas-Kyriazi自己說,這是與谷歌MLP-Mixer并行的研究,idea完全相同,不同之處在于使用了更多的計算。
網(wǎng)友:幾乎相同,但好過谷歌!
論文看起來與MLP-Mixer幾乎相同,除了Mixer的大數(shù)據(jù)方法中包含了花式的數(shù)據(jù)和長效的實驗。
他的“前饋層堆?!北萂LP-Mixer的還要精確得多!
而他也表示:
正是大公司的介入使競爭越來越激烈,他們可以在更短的時間內(nèi)進(jìn)行更多的實驗,就像高度優(yōu)化的造紙機。
好吧,果然大神們的世界做課題的方向和速度都是一樣的“神”。
有興趣的親們記得去看這兩個研究的原文。
團(tuán)隊介紹
Luke Melas-Kyriazi 哈佛大學(xué)數(shù)學(xué)系畢業(yè)生、現(xiàn)牛津大學(xué)博士。
目前,在牛津大學(xué)Andrea Vedaldi教授指導(dǎo)下,Luke攻讀方向為機器學(xué)習(xí)和計算機視覺,專注于半監(jiān)督和多模式學(xué)習(xí)研究。
參考鏈接:
[1]https://www.reddit.com/r/MachineLearning/comments/n62qhn/r_do_you_even_need_attention_a_stack_of
[2]https://arxiv.org/abs/2105.02723
[3]https://www.reddit.com/r/MachineLearning/comments/n59kjo/r_mlpmixer_an_allmlp_architecture_for_vision/
[4]https://arxiv.org/abs/2105.01601
[5]https://zhuanlan.zhihu.com/p/369959580
[6]https://www.163.com/dy/article/G9AVMRPD0511DPVD.html
- 商湯林達(dá)華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計,讓70年經(jīng)驗“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機器人人人人人塞滿了!2025-08-08