谷歌提出「卷積+注意力」新模型,超越ResNet最強(qiáng)變體!
大神Quoc Le參與研究。
Transformer跨界計(jì)算機(jī)視覺(jué)雖然已取得了一些不錯(cuò)的成績(jī),但大部分情況下,它還是落后于最先進(jìn)的卷積網(wǎng)絡(luò)。
現(xiàn)在,谷歌提出了一個(gè)叫做CoAtNets的模型,看名字你也發(fā)現(xiàn)了,這是一個(gè)Convolution + Attention的組合模型。

該模型實(shí)現(xiàn)了ImageNet數(shù)據(jù)集86.0%的top-1精度,而在使用JFT數(shù)據(jù)集的情況下實(shí)現(xiàn)了89.77%的精度,性能優(yōu)于現(xiàn)有的所有卷積網(wǎng)絡(luò)和Transformer!

卷積結(jié)合自注意,更強(qiáng)的泛化能力和更高的模型容量
他們是如何決定將卷積網(wǎng)絡(luò)和Transformer結(jié)合起來(lái)造一個(gè)新模型呢?
首先,研究人員發(fā)現(xiàn),卷積網(wǎng)絡(luò)和Transformer在機(jī)器學(xué)習(xí)的兩個(gè)基本方面——泛化和模型容量上各具優(yōu)勢(shì)。
由于卷積層有較強(qiáng)的歸納偏置(inductive bias),所以卷積網(wǎng)絡(luò)模型具有更好的泛化能力和更快的收斂速度,而擁有注意機(jī)制的Transformer則有更高的模型容量,可以從大數(shù)據(jù)集中受益。
那將卷積層和注意層相結(jié)合起來(lái),不就可以同時(shí)獲得更好的泛化能力和更大的模型容量嗎!
那好,關(guān)鍵問(wèn)題來(lái)了:如何有效地將它們結(jié)合起來(lái),并在準(zhǔn)確性和效率之間實(shí)現(xiàn)更好的平衡?

研究人員又發(fā)現(xiàn),常見(jiàn)的深度卷積(depthwise convolution)只需簡(jiǎn)單的相對(duì)注意就可以合并進(jìn)注意力層!
因此,他們將CoAtNets的實(shí)現(xiàn)分為兩步:
1、將卷積和自注意結(jié)合在一個(gè)基本計(jì)算塊中;
2、將不同類(lèi)型的計(jì)算塊垂直堆疊在一起(垂直布局設(shè)計(jì)),形成完整的網(wǎng)絡(luò)。
具體實(shí)現(xiàn)
首先,由于Transformer和MBConv中的FFN模塊都采用了“反向瓶頸”的設(shè)計(jì),加上深度卷積和自我注意都可以用預(yù)定義的感受野中的加權(quán)和來(lái)表示,CoAtNets主要采用MBConv卷積塊。
具體來(lái)說(shuō),卷積依賴于一個(gè)固定核從局部感受野收集信息:

相比之下,自注意允許感受野成為整個(gè)空間位置,并基于對(duì)(xi,xj)之間的重歸一化成對(duì)相似性來(lái)計(jì)算權(quán)重:

將它們以最佳形式結(jié)合之前,研究人員比較了一下兩者各自的理想特性。

一個(gè)結(jié)合深度卷積和自注意的理想模型需要具備以上3個(gè)特性,而研究人員的實(shí)現(xiàn)方法很簡(jiǎn)單:在Softmax歸一化前或后,將全局靜態(tài)卷積核與自適應(yīng)注意矩陣求和。

將卷積和注意力結(jié)合起來(lái)之后,就可以開(kāi)始堆疊整個(gè)網(wǎng)絡(luò)。
全局上下文在空間大?。╯patial size)方面具有二次復(fù)雜性,如果直接將上述公式中的相對(duì)注意應(yīng)用到原始圖像輸入,會(huì)因?yàn)槠胀ǔ叽鐖D像中過(guò)多的像素,導(dǎo)致計(jì)算速度過(guò)慢。
因此,要構(gòu)建一個(gè)在實(shí)際操作中可行的模型,研究人員選擇在feature map達(dá)到可管理水平后,進(jìn)行一些下采樣以減小空間大小,再使用全局相對(duì)注意。
其中下采樣可以像ViT那樣用具有積極步幅(stride,例如16×16)的?convolution stem或像ConvNets里具有漸進(jìn)池的多級(jí)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)。
研究人員按照上面兩種方法堆疊出5個(gè)變體:C-C-C-C、C-C-C-T、C-C-T-T和C-T-T-T以及ViT???,其中C和T分別表示卷積和Transformer。
為了作出選擇,他們進(jìn)行了對(duì)照實(shí)驗(yàn),選出了泛化能力和模型容量最好的兩個(gè):C-C-T-T和C-T-T-T,優(yōu)中選優(yōu),最終選擇了遷移性能更好的C-C-T-T。

至此,完整的CoAtNets模型就實(shí)現(xiàn)了。
NO.1的top-1精度
其實(shí),將卷積和自注意相結(jié)合用于計(jì)算機(jī)視覺(jué)的想法并不新鮮,但此前的一些方法通常會(huì)帶來(lái)額外的計(jì)算成本等問(wèn)題。
而他們的相對(duì)注意實(shí)例化是深度卷積和基于內(nèi)容的注意力的自然結(jié)合,加上優(yōu)中選優(yōu)的垂直布局設(shè)計(jì),新模型CoAtNets造成的額外成本最小。
下面就來(lái)看具體的實(shí)驗(yàn)數(shù)據(jù):

僅使用ImageNet-1K數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明:CoAtNet不僅優(yōu)于ViT變體,還能匹敵最佳的僅卷積結(jié)構(gòu)(EfficientNet-V2和nfnet)。
從上表和下圖還可以看出:使用ImageNet-21K進(jìn)行預(yù)訓(xùn)練,CoAtNet的優(yōu)勢(shì)變得更加明顯,大大優(yōu)于以前的所有模型。
且最好的CoAtNet變體實(shí)現(xiàn)了88.56%的top-1精度,而與之匹敵的ViT-H/14則需要在23倍大的JFT數(shù)據(jù)集上預(yù)先訓(xùn)練2.3倍規(guī)模的ViT才能達(dá)到88.55%的成績(jī)。
這標(biāo)志著CoAtNet模型數(shù)據(jù)效率和計(jì)算效率的顯著提高。

△?ImageNet-21K ?ImageNet-1K 的參數(shù)精度
最后,研究人員用JFT進(jìn)一步評(píng)估了大規(guī)模數(shù)據(jù)集下的CoAtNet,發(fā)現(xiàn)它達(dá)到89.77%精度,超過(guò)ResNet最強(qiáng)變體NFNet-F4+排名第一,同時(shí)在TPU訓(xùn)練時(shí)間和參數(shù)計(jì)數(shù)方面提高了2倍效率。

作者介紹
論文的四位作者全部來(lái)自谷歌大腦。

Dai Zihang,本科清華大學(xué)工商管理專業(yè),碩士卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)專業(yè),博士卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)和哲學(xué)雙學(xué)位。

劉寒驍,同為清華本科,卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)博士,谷歌大腦高級(jí)研究科學(xué)家,曾在DeepMind研究神經(jīng)架構(gòu)搜索。

Quoc Le,這位大佬應(yīng)該很多人都知道,斯坦福大學(xué)計(jì)算機(jī)科學(xué)博士畢業(yè),吳恩達(dá)的學(xué)生,谷歌大腦的創(chuàng)始成員和 AutoML 的締造者之一。

Tan Mingxing ,北京大學(xué)博士畢業(yè)、康奈爾大學(xué)博士后。
論文地址:https://arxiv.org/abs/2106.04803
- 北大開(kāi)源最強(qiáng)aiXcoder-7B代碼大模型!聚焦真實(shí)開(kāi)發(fā)場(chǎng)景,專為企業(yè)私有部署設(shè)計(jì)2024-04-09
- 剛剛,圖靈獎(jiǎng)揭曉!史上首位數(shù)學(xué)和計(jì)算機(jī)最高獎(jiǎng)“雙料王”出現(xiàn)了2024-04-10
- 8.3K Stars!《多模態(tài)大語(yǔ)言模型綜述》重大升級(jí)2024-04-10
- 谷歌最強(qiáng)大模型免費(fèi)開(kāi)放了!長(zhǎng)音頻理解功能獨(dú)一份,100萬(wàn)上下文敞開(kāi)用2024-04-10