何愷明團(tuán)隊(duì)新作:只用普通ViT,不做分層設(shè)計(jì)也能搞定目標(biāo)檢測
更加簡單粗暴
魚羊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
微軟的Swin Transformer去年橫空出世,一舉突破了Transformer做視覺任務(wù)復(fù)雜度過高的問題。
這種把Transformer“卷積網(wǎng)絡(luò)”化的做法,也成為當(dāng)前ViT研究領(lǐng)域的熱門方向。
但現(xiàn)在,何愷明團(tuán)隊(duì)的最新論文提出了不同的觀點(diǎn):
在目標(biāo)檢測任務(wù)上,像Swin Transformer那樣的復(fù)雜操作可能是沒有必要的。
只用普通ViT做骨干網(wǎng)絡(luò),一樣能在目標(biāo)檢測任務(wù)上拿下高分。
不對ViT引入分層設(shè)計(jì)
ViT可以說是打開了Transformer跨界處理視覺任務(wù)的新大門。
但原始ViT的問題在于,它是一個非層次化的架構(gòu)。也就是說,ViT只有一個單一尺度的特征圖。
于是在目標(biāo)檢測這樣的任務(wù)中,ViT就面臨著兩個問題:
其一,如何在下游任務(wù)中用預(yù)訓(xùn)練好的骨干網(wǎng)絡(luò)來處理好各種大小不同的物體?
其二,全局注意力機(jī)制的復(fù)雜度與輸入圖像尺寸的平方呈正比,在面對高分辨率圖像時,處理效率低下。
以Swin Transformer為代表,給出的解決方案是向CNN學(xué)習(xí),將分層設(shè)計(jì)重新引入骨干網(wǎng)絡(luò):
- 基于分層特征圖,利用特征金字塔網(wǎng)絡(luò)(FPN)或U-Net等技術(shù)進(jìn)行密集預(yù)測
- 將自注意力計(jì)算限制在不重疊的局部窗口中,同時允許跨窗口連接,從而帶來更高的效率
而何愷明團(tuán)隊(duì)的這篇新論文,則試圖尋找一個新的突破方向。
其核心,是放棄FPN設(shè)計(jì)。
具體而言,研究人員通過對ViT的最后一層特征圖進(jìn)行卷積或反卷積,得到了多尺度特征圖,從而重建出一個簡單的FPN。
相比于標(biāo)準(zhǔn)特征金字塔通過bottom-up、top-down和lateral connection做特征融合的方法,可以說得上是簡單粗暴。
另外,在對高分辨率圖像進(jìn)行特征提取時,研究人員也采用了窗口注意力機(jī)制,但沒有選擇像Swin Transformer那樣做shift。
在進(jìn)行信息交互時,他們將block均分為四個部分,探索了兩種策略:全局傳播和卷積傳播。
從表格中可以看出,采用4個卷積塊(conv block)的效果是最好的。
這種新方法被命名為ViTDet。
論文還提到,結(jié)合MAE方法進(jìn)行預(yù)訓(xùn)練,效果更好。
從實(shí)驗(yàn)結(jié)果來看,以ViT作為骨干網(wǎng)絡(luò)的方法,在模型較大時,展現(xiàn)出了比Swin、MVITv2等采用分層策略的方法更優(yōu)的性能。
研究人員表示:
使用普通ViT作為骨干網(wǎng)絡(luò),基于MAE方法進(jìn)行預(yù)訓(xùn)練,由此得到的ViTDet能與之前所有基于分層骨干網(wǎng)絡(luò)的先進(jìn)方法競爭。
關(guān)于作者
Yanghao Li,本碩畢業(yè)于北京大學(xué),現(xiàn)在在Facebook AI研究院擔(dān)任研究工程師。
Hanzi Mao,本碩畢業(yè)于華中科技大學(xué),2020年在德州農(nóng)工大學(xué)拿到博士學(xué)位,現(xiàn)為Facebook AI研究院高級研究科學(xué)家。
另外,除了何愷明,Ross Girshick大神也坐鎮(zhèn)了這篇論文。
論文地址:
https://arxiv.org/abs/2203.16527