顏水成團(tuán)隊開源VOLO:無需額外數(shù)據(jù),首次在ImageNet上達(dá)到87.1%的精度
Transformer揚(yáng)眉吐氣:我們真的不比CNN差
自打Transformer橫空出世以來,它在CV領(lǐng)域就取得了很多不俗的效果。
比如采用純Transformer架構(gòu)的ViT在很多圖像分類任務(wù)中表現(xiàn)都不輸最先進(jìn)的CNN。
但在沒有額外數(shù)據(jù)的情況下,Transformer的性能仍然比不過它們。
不過,Transformer并不服氣。

這不,最近一個叫做VOLO的Transformer變體,自稱打破了這個僵局:
無需任何額外訓(xùn)練數(shù)據(jù),就在ImageNet數(shù)據(jù)集上達(dá)到了87.1%的top-1精度,打破了基于CNN的SOTA模型(NFnet )此前保持的86.5%的最好記錄!

Transformer因此又揚(yáng)眉吐氣了:我們真的不比CNN差。
那它是如何做到的呢?
引入outlook注意力
這個基于自注意力的圖像分類模型VOLO,出自顏水成領(lǐng)導(dǎo)的Sea AI Lab團(tuán)隊與新加坡國立大學(xué)。

他們在研究中發(fā)現(xiàn),ViT在ImageNet圖像分類上的性能受到限制的主要因素是:在將精細(xì)級(fine-level )的特征編碼為token的表示過程中比較低效。
為了解決這個問題,他們引入了一種新的outlook注意力,并提出了一個簡單而通用的架構(gòu),稱為Vision outlooker ,也就是VOLO。
與專注于全局依賴粗略建模的自注意力不同,outlook注意力可以有效地將更精細(xì)級別的特征和上下文編碼為token。
因此,VOLO采用兩階段架構(gòu)設(shè)計,同時考慮了更具細(xì)粒度的token表示編碼和全局信息聚合。
第一階段由一堆Outlookers組成,用于生成精細(xì)級別的token表示。
第二階段部署一系列transformer blocks來聚合全局信息。
在每個階段的開始,使用一個圖像塊嵌入模塊(patch embedding module)將圖像輸入映射到期望形狀的token表示。
下面就著重說一下這里面的核心:Outlooker。
其組成包括:用于空間信息編碼的outlook注意力層,以及用于通道間信息交互的多層感知器(MLP)。

其中,通過reshape操作(綠框),可以從具有線性層的中心token簡單生成大小為K×K的局部窗口的Outlook注意力矩陣。
由于注意力權(quán)值是從中心token生成并作用于鄰居token及其本身(如黑框),因此研究人員將這些操作命名為outlook注意力。

具體來說,假如給定一個大小為224×224的輸入圖像。
在使用自注意力構(gòu)建粗略級(如14×14)的全局依賴之前,VOLO將圖像標(biāo)記成較小尺寸(如8× 8)的patches。并使用多個Outlooker在精細(xì)級別上(如28×28)對token表示進(jìn)行編碼。
這樣,最后獲得的token表示更具有代表性,從而可顯著提高圖像分類模型的性能。
這個模型兼具卷積和自注意力的優(yōu)點(diǎn),總的來說:
1、outlook注意力通過度量每對token表示之間的相似性來對空間信息進(jìn)行編碼,因此其特征學(xué)習(xí)效果比卷積更具有參數(shù)效率;
2、outlook注意力采用滑動窗口方式,在精細(xì)級上實(shí)現(xiàn)了對token表示進(jìn)行局部編碼,并在一定程度上保留了視覺任務(wù)的關(guān)鍵位置信息;
3、生成注意力權(quán)值的方法簡單有效。與依賴于query-key矩陣乘法的自注意力不同,outlook的權(quán)值僅靠一個簡單的reshape操作產(chǎn)生,節(jié)省了計算量。
實(shí)驗(yàn)結(jié)果
研究人員配置了五個不同大小的VOLO變體,各參數(shù)如下:

如下表所示,在不同的模型尺寸水平上,他們提出的VOLO都取得了比當(dāng)前SOTA模型更佳的性能。

例如,只有26.6萬參數(shù)量的VOLO-D1,在輸入圖片分辨率為224時,它在ImageNet上已經(jīng)可以達(dá)到84.2%的top-1精度。將分辨率微調(diào)到384后,性能進(jìn)一步提高到85.2%,一舉pk掉所有具有相同訓(xùn)練參數(shù)的模型。
而當(dāng)模型規(guī)模增加到296萬時,VOLO就在ImageNet上達(dá)到了87.1%的top-1精度,這在沒有額外訓(xùn)練數(shù)據(jù)的情況下創(chuàng)造了新的記錄!
研究人員還將Outlooker與局部自注意力(local self-attention)和空間卷積進(jìn)行了比較。
結(jié)果表明,在訓(xùn)練方法和架構(gòu)相同的情況下,Outlooker都優(yōu)于局部自注意力和空間卷積。

研究人員還觀察到,在以LV-ViT-S為基準(zhǔn)模型時,局部自注意力和空間卷積也可以提高性能,這表明對精細(xì)級的token表示進(jìn)行編碼對圖像識別模型的性能提升是有幫助的。
不僅如此,預(yù)訓(xùn)練好的VOLO模型還可以很好地遷移到下游任務(wù),如語義分割:它在Cityscapes數(shù)據(jù)集上獲得了84.3%的mIoU。

在ADE20K數(shù)據(jù)集上獲得了54.3%的mIoU。

最后,消融實(shí)驗(yàn)發(fā)現(xiàn):
增加模型尺寸有助于提升模型性能,例如VOLO-D1到VOLO-D2可以帶來1%的性能提升;
更高分辨率的微調(diào)同樣也可以帶來約1%的性能提升。
作者介紹

本文的第一作者是袁粒,目前在新加坡國立大學(xué)(NUS)博士就讀,本科畢業(yè)于中科大,曾提出改進(jìn)ViT的模型:T2T-ViT。

二作為侯淇彬,南開大學(xué)博士畢業(yè),在計算機(jī)領(lǐng)域頂級期刊及會議上發(fā)表論文9篇,其中一作5篇?,F(xiàn)在是NUS的研究員。
其余作者信息如下:

蔣子航,NUS博士在讀,師從馮佳時教授,來自中國浙江。

馮佳時,著名華人AI學(xué)者,現(xiàn)為NUS的ECE系助理教授。本科畢業(yè)于中國科學(xué)技術(shù)大學(xué),碩士畢業(yè)于中國科學(xué)院自動化研究所,博士畢業(yè)于NUS。他的論文h指數(shù)為68。

顏水成,人稱“水哥”,IEEE Fellow、IAPR Fellow。畢業(yè)于北京大學(xué)數(shù)學(xué)系,曾任360集團(tuán)副總裁、依圖科技CTO等職。
現(xiàn)在NUS領(lǐng)導(dǎo)機(jī)器學(xué)習(xí)與計算機(jī)視覺實(shí)驗(yàn)室,擁有該校終身教職,論文h指數(shù)為96。
更多研究細(xì)節(jié)請戳論文全文:https://arxiv.org/abs/2106.13112
GitHub鏈接:https://github.com/sail-sg/volo