国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

谷歌提出「卷積+注意力」新模型，超越ResNet最強(qiáng)變體！

豐色 2021-06-25 17:17:14 來(lái)源：量子位

大神Quoc Le參與研究。

Transformer跨界計(jì)算機(jī)視覺(jué)雖然已取得了一些不錯(cuò)的成績(jī)，但大部分情況下，它還是落后于最先進(jìn)的卷積網(wǎng)絡(luò)。

現(xiàn)在，谷歌提出了一個(gè)叫做CoAtNets的模型，看名字你也發(fā)現(xiàn)了，這是一個(gè)Convolution + Attention的組合模型。

該模型實(shí)現(xiàn)了ImageNet數(shù)據(jù)集86.0%的top-1精度，而在使用JFT數(shù)據(jù)集的情況下實(shí)現(xiàn)了89.77%的精度，性能優(yōu)于現(xiàn)有的所有卷積網(wǎng)絡(luò)和Transformer！

卷積結(jié)合自注意，更強(qiáng)的泛化能力和更高的模型容量

他們是如何決定將卷積網(wǎng)絡(luò)和Transformer結(jié)合起來(lái)造一個(gè)新模型呢？

首先，研究人員發(fā)現(xiàn)，卷積網(wǎng)絡(luò)和Transformer在機(jī)器學(xué)習(xí)的兩個(gè)基本方面——泛化和模型容量上各具優(yōu)勢(shì)。

由于卷積層有較強(qiáng)的歸納偏置（inductive bias），所以卷積網(wǎng)絡(luò)模型具有更好的泛化能力和更快的收斂速度，而擁有注意機(jī)制的Transformer則有更高的模型容量，可以從大數(shù)據(jù)集中受益。

那將卷積層和注意層相結(jié)合起來(lái)，不就可以同時(shí)獲得更好的泛化能力和更大的模型容量嗎！

那好，關(guān)鍵問(wèn)題來(lái)了：如何有效地將它們結(jié)合起來(lái)，并在準(zhǔn)確性和效率之間實(shí)現(xiàn)更好的平衡？

研究人員又發(fā)現(xiàn)，常見(jiàn)的深度卷積（depthwise convolution）只需簡(jiǎn)單的相對(duì)注意就可以合并進(jìn)注意力層！

因此，他們將CoAtNets的實(shí)現(xiàn)分為兩步：

1、將卷積和自注意結(jié)合在一個(gè)基本計(jì)算塊中；

2、將不同類(lèi)型的計(jì)算塊垂直堆疊在一起（垂直布局設(shè)計(jì)），形成完整的網(wǎng)絡(luò)。

具體實(shí)現(xiàn)

首先，由于Transformer和MBConv中的FFN模塊都采用了“反向瓶頸”的設(shè)計(jì)，加上深度卷積和自我注意都可以用預(yù)定義的感受野中的加權(quán)和來(lái)表示，CoAtNets主要采用MBConv卷積塊。

具體來(lái)說(shuō)，卷積依賴于一個(gè)固定核從局部感受野收集信息：

相比之下，自注意允許感受野成為整個(gè)空間位置，并基于對(duì)（xi，xj）之間的重歸一化成對(duì)相似性來(lái)計(jì)算權(quán)重：

將它們以最佳形式結(jié)合之前，研究人員比較了一下兩者各自的理想特性。

一個(gè)結(jié)合深度卷積和自注意的理想模型需要具備以上3個(gè)特性，而研究人員的實(shí)現(xiàn)方法很簡(jiǎn)單：在Softmax歸一化前或后，將全局靜態(tài)卷積核與自適應(yīng)注意矩陣求和。

將卷積和注意力結(jié)合起來(lái)之后，就可以開(kāi)始堆疊整個(gè)網(wǎng)絡(luò)。

全局上下文在空間大?。╯patial size）方面具有二次復(fù)雜性，如果直接將上述公式中的相對(duì)注意應(yīng)用到原始圖像輸入，會(huì)因?yàn)槠胀ǔ叽鐖D像中過(guò)多的像素，導(dǎo)致計(jì)算速度過(guò)慢。

因此，要構(gòu)建一個(gè)在實(shí)際操作中可行的模型，研究人員選擇在feature map達(dá)到可管理水平后，進(jìn)行一些下采樣以減小空間大小，再使用全局相對(duì)注意。

其中下采樣可以像ViT那樣用具有積極步幅（stride，例如16×16）的?convolution stem或像ConvNets里具有漸進(jìn)池的多級(jí)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)。

研究人員按照上面兩種方法堆疊出5個(gè)變體：C-C-C-C、C-C-C-T、C-C-T-T和C-T-T-T以及ViT???，其中C和T分別表示卷積和Transformer。

為了作出選擇，他們進(jìn)行了對(duì)照實(shí)驗(yàn)，選出了泛化能力和模型容量最好的兩個(gè)：C-C-T-T和C-T-T-T，優(yōu)中選優(yōu)，最終選擇了遷移性能更好的C-C-T-T。

至此，完整的CoAtNets模型就實(shí)現(xiàn)了。

NO.1的top-1精度

其實(shí)，將卷積和自注意相結(jié)合用于計(jì)算機(jī)視覺(jué)的想法并不新鮮，但此前的一些方法通常會(huì)帶來(lái)額外的計(jì)算成本等問(wèn)題。

而他們的相對(duì)注意實(shí)例化是深度卷積和基于內(nèi)容的注意力的自然結(jié)合，加上優(yōu)中選優(yōu)的垂直布局設(shè)計(jì)，新模型CoAtNets造成的額外成本最小。

下面就來(lái)看具體的實(shí)驗(yàn)數(shù)據(jù)：

僅使用ImageNet-1K數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明：CoAtNet不僅優(yōu)于ViT變體，還能匹敵最佳的僅卷積結(jié)構(gòu)（EfficientNet-V2和nfnet）。

從上表和下圖還可以看出：使用ImageNet-21K進(jìn)行預(yù)訓(xùn)練，CoAtNet的優(yōu)勢(shì)變得更加明顯，大大優(yōu)于以前的所有模型。

且最好的CoAtNet變體實(shí)現(xiàn)了88.56%的top-1精度，而與之匹敵的ViT-H/14則需要在23倍大的JFT數(shù)據(jù)集上預(yù)先訓(xùn)練2.3倍規(guī)模的ViT才能達(dá)到88.55%的成績(jī)。

這標(biāo)志著CoAtNet模型數(shù)據(jù)效率和計(jì)算效率的顯著提高。

△?ImageNet-21K ?ImageNet-1K 的參數(shù)精度

最后，研究人員用JFT進(jìn)一步評(píng)估了大規(guī)模數(shù)據(jù)集下的CoAtNet，發(fā)現(xiàn)它達(dá)到89.77%精度，超過(guò)ResNet最強(qiáng)變體NFNet-F4+排名第一，同時(shí)在TPU訓(xùn)練時(shí)間和參數(shù)計(jì)數(shù)方面提高了2倍效率。

作者介紹

論文的四位作者全部來(lái)自谷歌大腦。

Dai Zihang，本科清華大學(xué)工商管理專業(yè)，碩士卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)專業(yè)，博士卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)和哲學(xué)雙學(xué)位。

劉寒驍，同為清華本科，卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)博士，谷歌大腦高級(jí)研究科學(xué)家，曾在DeepMind研究神經(jīng)架構(gòu)搜索。

Quoc Le，這位大佬應(yīng)該很多人都知道，斯坦福大學(xué)計(jì)算機(jī)科學(xué)博士畢業(yè)，吳恩達(dá)的學(xué)生，谷歌大腦的創(chuàng)始成員和 AutoML 的締造者之一。

Tan Mingxing ，北京大學(xué)博士畢業(yè)、康奈爾大學(xué)博士后。

論文地址：https://arxiv.org/abs/2106.04803

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

豐色

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

谷歌提出「卷積+注意力」新模型，超越ResNet最強(qiáng)變體！

卷積結(jié)合自注意，更強(qiáng)的泛化能力和更高的模型容量

具體實(shí)現(xiàn)

NO.1的top-1精度

作者介紹

相關(guān)閱讀

4年3次加碼核聚變，硅谷巨頭們瘋狂搶電ing

谷歌被曝2500億美元收購(gòu)Salesforce！拆分云業(yè)務(wù)，反擊亞馬遜微軟

本想去谷歌撈一筆就跑，卻成了改變AI歷史的人｜Transformer作者對(duì)話Jeff Dean

我們從2021谷歌I/O大會(huì)給的謎題中發(fā)現(xiàn)了隱藏信息

AI在這張“問(wèn)卷”上首次超越人類(lèi)，SuperGLUE被微軟谷歌兩家“攻破”

Android 10正式版有望今日開(kāi)始推送

熱門(mén)文章

谷歌版小鋼炮開(kāi)源！0.27B大模型，4個(gè)注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬(wàn)美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

國(guó)家級(jí)AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬(wàn)元獎(jiǎng)金池+全場(chǎng)景賽道，沖線團(tuán)隊(duì)速來(lái)

百度AICA第9期開(kāi)課：18大行業(yè)96位首席AI架構(gòu)師齊探AI產(chǎn)業(yè)落地

GPT-5超越人類(lèi)醫(yī)生！推理能力比專家高出24%，理解力強(qiáng)29%

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

谷歌提出「卷積+注意力」新模型，超越ResNet最強(qiáng)變體！

卷積結(jié)合自注意，更強(qiáng)的泛化能力和更高的模型容量

具體實(shí)現(xiàn)

NO.1的top-1精度

作者介紹

相關(guān)閱讀

4年3次加碼核聚變，硅谷巨頭們瘋狂搶電ing

谷歌被曝2500億美元收購(gòu)Salesforce！拆分云業(yè)務(wù)，反擊亞馬遜微軟

本想去谷歌撈一筆就跑，卻成了改變AI歷史的人｜Transformer作者對(duì)話Jeff Dean

我們從2021谷歌I/O大會(huì)給的謎題中發(fā)現(xiàn)了隱藏信息

AI在這張“問(wèn)卷”上首次超越人類(lèi)，SuperGLUE被微軟谷歌兩家“攻破”

Android 10正式版有望今日開(kāi)始推送

熱門(mén)文章

谷歌版小鋼炮開(kāi)源！0.27B大模型，4個(gè)注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬(wàn)美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

國(guó)家級(jí)AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬(wàn)元獎(jiǎng)金池+全場(chǎng)景賽道，沖線團(tuán)隊(duì)速來(lái)

百度AICA第9期開(kāi)課：18大行業(yè)96位首席AI架構(gòu)師齊探AI產(chǎn)業(yè)落地

GPT-5超越人類(lèi)醫(yī)生！推理能力比專家高出24%，理解力強(qiáng)29%

谷歌提出「卷積+注意力」新模型，超越ResNet最強(qiáng)變體！

卷積結(jié)合自注意，更強(qiáng)的泛化能力和更高的模型容量

4年3次加碼核聚變，硅谷巨頭們瘋狂搶電ing

谷歌被曝2500億美元收購(gòu)Salesforce！拆分云業(yè)務(wù)，反擊亞馬遜微軟

本想去谷歌撈一筆就跑，卻成了改變AI歷史的人｜Transformer作者對(duì)話Jeff Dean

AI在這張“問(wèn)卷”上首次超越人類(lèi)，SuperGLUE被微軟谷歌兩家“攻破”

谷歌版小鋼炮開(kāi)源！0.27B大模型，4個(gè)注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬(wàn)美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

國(guó)家級(jí)AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬(wàn)元獎(jiǎng)金池+全場(chǎng)景賽道，沖線團(tuán)隊(duì)速來(lái)

GPT-5超越人類(lèi)醫(yī)生！推理能力比專家高出24%，理解力強(qiáng)29%