国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

何愷明時(shí)隔2年再發(fā)一作論文：為視覺(jué)大模型開路，“CVPR 2022最佳論文候選預(yù)定”

明敏 2021-11-13 13:46:44 來(lái)源：量子位

全文沒(méi)有一個(gè)公式

楊凈明敏雷剛發(fā)自凹非寺

量子位報(bào)道 | 公眾號(hào) QbitAI

大神話不多，但每一次一作論文，必定引發(fā)江湖震動(dòng)。

這不，距離上一篇一作論文2年之后，何愷明再次以一作身份，帶來(lái)最新研究。

依然是視覺(jué)領(lǐng)域的研究，依然是何愷明式的大道至簡(jiǎn)。

甚至在業(yè)內(nèi)紛紛追求“大力出奇跡”、“暴力美學(xué)”的當(dāng)下，何愷明還帶著一種堅(jiān)持獨(dú)立思考的反共識(shí)氣概。

簡(jiǎn)潔：通篇論文沒(méi)有一個(gè)公式。

有效：大巧不工，用最簡(jiǎn)單的方法展現(xiàn)精妙之美。

江湖震動(dòng)：“CVPR 2022最佳論文候選預(yù)定”。

所以，何愷明新作：

Masked Autoencoders Are Scalable Vision Learners

究竟有怎樣的思想和研究成果？

用于CV的自監(jiān)督學(xué)習(xí)方案

本文提出了一種用于計(jì)算機(jī)視覺(jué)的Masked AutoEncoders 掩蔽自編碼器，簡(jiǎn)稱MAE。

——一種類似于NLP技術(shù)的自我監(jiān)督方法。

操作很簡(jiǎn)單：對(duì)輸入圖像的隨機(jī)區(qū)塊進(jìn)行掩蔽，然后重建缺失的像素。

主要有兩個(gè)核心設(shè)計(jì)。

一個(gè)是非對(duì)稱的編碼-解碼架構(gòu)，一個(gè)高比例遮蔽輸入圖像。

先來(lái)看編碼-解碼架構(gòu)。

如圖所示，編碼器是ViT，它僅對(duì)可見區(qū)塊進(jìn)行操作，然后用一個(gè)輕量級(jí)編碼器——僅在預(yù)訓(xùn)練期間負(fù)責(zé)圖像重建任務(wù)。

具體而言，作者先將圖像均勻劃分為非重疊區(qū)塊，然后隨機(jī)對(duì)區(qū)塊進(jìn)行采樣。

以遮蔽比例75%為例，它先在輸入圖像中掩蔽75%的隨機(jī)區(qū)塊，編碼器只在可見的25%區(qū)塊子集上運(yùn)行，這樣就可以只用非常少的計(jì)算和顯存，來(lái)訓(xùn)練非常大的編碼器。

然后解碼器將可見的token和掩碼token組合，并向所有token中添加位置嵌入，通過(guò)預(yù)測(cè)每個(gè)掩蔽區(qū)塊的像素值來(lái)重建圖像信號(hào)。

這樣一來(lái)，在預(yù)訓(xùn)練時(shí)解碼器可以獨(dú)立于編碼器，從而可以用非常輕量級(jí)解碼器實(shí)驗(yàn)，大量減少預(yù)訓(xùn)練時(shí)間。

另一個(gè)特點(diǎn)則是對(duì)輸入圖像的高比例進(jìn)行遮蔽時(shí)，自監(jiān)督任務(wù)效果非常好。

比如，掩蔽掉80%隨機(jī)patch的效果如下：

其中最左列為輸入圖像，中間列為MAE方法重建效果，最右側(cè)為原圖效果。

不同掩蔽比例在重建圖像中的表現(xiàn)對(duì)比如下：

將這兩種設(shè)計(jì)結(jié)合，結(jié)果用來(lái)訓(xùn)練大模型：

訓(xùn)練速度提升3倍以上，還提高準(zhǔn)確率的那種。

除此之外，基于該方案所得出的大模型具備很好的泛化能力：

比如，在僅使用ImageNet-1K數(shù)據(jù)時(shí)，ViT-Huge模型準(zhǔn)確性達(dá)87.8%。

在COCO數(shù)據(jù)集中的表現(xiàn)如下，雖然重建效果不清晰，但是基本語(yǔ)義是正確的。

研究者還對(duì)MAE遷移學(xué)習(xí)的性能進(jìn)行了評(píng)估。

結(jié)果在下游任務(wù)，比如目標(biāo)檢測(cè)、實(shí)例分割、語(yǔ)義分割等任務(wù)都優(yōu)于監(jiān)督預(yù)訓(xùn)練。

在對(duì)比中可以看到，隨機(jī)遮蔽75%、整塊遮蔽50%和網(wǎng)格遮蔽75%的三種采樣方法中，隨機(jī)遮蔽75%重建圖像的質(zhì)量最好。

基于這些研究成果，何愷明團(tuán)隊(duì)在最后也表達(dá)了他們的看法。

一方面，擴(kuò)展性好的簡(jiǎn)單算法是深度學(xué)習(xí)的核心。

在計(jì)算機(jī)視覺(jué)中，盡管自監(jiān)督學(xué)習(xí)方面取得了進(jìn)展，但實(shí)際預(yù)訓(xùn)練仍需受到監(jiān)督。

這項(xiàng)研究中，作者看到ImageNet和遷移學(xué)習(xí)任務(wù)中，自編碼器表現(xiàn)出了非常強(qiáng)的可擴(kuò)展優(yōu)勢(shì)。

為此作者認(rèn)為，CV中自監(jiān)督學(xué)習(xí)現(xiàn)在可能正走上與NLP類似的軌道。

另一方面，作者注意，圖像和語(yǔ)言是不同性質(zhì)的信號(hào)，這種差異需要小心處理。

圖像僅僅是記錄下來(lái)的光，并沒(méi)有語(yǔ)義分解為文字的視覺(jué)類似物。

他們不是去試圖去除物體，而是去除可能不構(gòu)成語(yǔ)義段的隨機(jī)區(qū)塊。重建的像素，也并不是語(yǔ)義實(shí)體。

研究團(tuán)隊(duì)

論文的研究團(tuán)隊(duì)，來(lái)自Facebook AI研究院（FAIR），每個(gè)人都屢屢獲譽(yù)，堪稱夢(mèng)之隊(duì)。

除了幾位老將，我們這次再多說(shuō)說(shuō)里面的華人面孔。

Xinlei Chen，本科畢業(yè)于浙江大學(xué)計(jì)算機(jī)專業(yè)，隨后在卡內(nèi)基梅隆大學(xué)攻讀博士學(xué)位，曾在UCLA、谷歌云、MSR實(shí)習(xí)。

謝賽寧，本科畢業(yè)于上海交通大學(xué)ACM班，隨后在UC圣迭戈分校攻讀計(jì)算機(jī)博士學(xué)位，曾在谷歌、DeepMind實(shí)習(xí)。

Yanghao Li，本科畢業(yè)于北京大學(xué)計(jì)算機(jī)專業(yè)，隨后留在本校繼續(xù)攻讀碩士學(xué)位。

最后，再次隆重介紹下何愷明。

一作何愷明，想必大家都不陌生。作為Mask R-CNN的主要提出者，他已4次斬獲頂會(huì)最佳論文。

何愷明是2003年廣東高考狀元，并保送了清華，進(jìn)入楊振寧發(fā)起設(shè)立的物理系基礎(chǔ)科學(xué)班。

碩博階段，何愷明前往香港中文大學(xué)多媒體實(shí)驗(yàn)室，導(dǎo)師正是后來(lái)的商湯科技創(chuàng)始人湯曉鷗。

此間，何愷明還進(jìn)入微軟亞洲研究院實(shí)習(xí)，在孫劍指導(dǎo)下，以一作身份發(fā)表ResNet研究，一舉成名天下知，榮獲2016年CVPR最佳論文。

同年何愷明進(jìn)入由Yann Lecun（獲2019年圖靈獎(jiǎng)）掌舵的Facebook人工智能實(shí)驗(yàn)室，與Ross Girshick、Piotr Dollar——本次研究中的其他幾位老面孔，組成了FAIR在AI研究領(lǐng)域的夢(mèng)之隊(duì)。

更加令人欽佩的是，何愷明年少成名，但這幾年來(lái)依然不斷潛心研究，一直帶來(lái)新驚喜。

甚至他的新研究，很多都是那種可以開枝散葉的成果。

這一次，MAE同樣被視為這樣的延續(xù)。

你怎么看MAE？

論文鏈接
https://arxiv.org/abs/2111.06377

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

CV 何愷明

明敏

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

何愷明時(shí)隔2年再發(fā)一作論文：為視覺(jué)大模型開路，“CVPR 2022最佳論文候選預(yù)定”

用于CV的自監(jiān)督學(xué)習(xí)方案

研究團(tuán)隊(duì)

相關(guān)閱讀

CVPR 2025：?jiǎn)螆D秒變專業(yè)影棚，幾何/材質(zhì)/光影全搞定，數(shù)據(jù)代碼開源

何愷明帶隊(duì)馴服AI更懂物理！去噪方法+哈密頓網(wǎng)絡(luò)，清華校友一作

英偉達(dá)CV公開課第3期：快速搭建手勢(shì)識(shí)別系統(tǒng)

谷歌最新視頻摳圖術(shù)：影子煙霧都能摳，添加水印更順滑，UP主剪輯利器 | 開源

谷歌&MIT何愷明團(tuán)隊(duì)：視覺(jué)大模型像LLM一樣高效擴(kuò)展

低門檻、高效率實(shí)現(xiàn)圖像識(shí)別AI開發(fā)，這場(chǎng)公開課值得 | 英偉達(dá)公開課

熱門文章

谷歌版小鋼炮開源！0.27B大模型，4個(gè)注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬(wàn)美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強(qiáng)29%

百度AICA第9期開課：18大行業(yè)96位首席AI架構(gòu)師齊探AI產(chǎn)業(yè)落地

吉利半年報(bào)喜人，但熱搜是高管為“背刺車主”道歉

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

何愷明時(shí)隔2年再發(fā)一作論文：為視覺(jué)大模型開路，“CVPR 2022最佳論文候選預(yù)定”

用于CV的自監(jiān)督學(xué)習(xí)方案

研究團(tuán)隊(duì)

相關(guān)閱讀

CVPR 2025：?jiǎn)螆D秒變專業(yè)影棚，幾何/材質(zhì)/光影全搞定，數(shù)據(jù)代碼開源

何愷明帶隊(duì)馴服AI更懂物理！去噪方法+哈密頓網(wǎng)絡(luò)，清華校友一作

英偉達(dá)CV公開課第3期：快速搭建手勢(shì)識(shí)別系統(tǒng)

谷歌最新視頻摳圖術(shù)：影子煙霧都能摳，添加水印更順滑，UP主剪輯利器 | 開源

谷歌&MIT何愷明團(tuán)隊(duì)：視覺(jué)大模型像LLM一樣高效擴(kuò)展

低門檻、高效率實(shí)現(xiàn)圖像識(shí)別AI開發(fā)，這場(chǎng)公開課值得 | 英偉達(dá)公開課

熱門文章

谷歌版小鋼炮開源！0.27B大模型，4個(gè)注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬(wàn)美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強(qiáng)29%

百度AICA第9期開課：18大行業(yè)96位首席AI架構(gòu)師齊探AI產(chǎn)業(yè)落地

吉利半年報(bào)喜人，但熱搜是高管為“背刺車主”道歉

何愷明時(shí)隔2年再發(fā)一作論文：為視覺(jué)大模型開路，“CVPR 2022最佳論文候選預(yù)定”

CVPR 2025：?jiǎn)螆D秒變專業(yè)影棚，幾何/材質(zhì)/光影全搞定，數(shù)據(jù)代碼開源

何愷明帶隊(duì)馴服AI更懂物理！去噪方法+哈密頓網(wǎng)絡(luò)，清華校友一作

谷歌最新視頻摳圖術(shù)：影子煙霧都能摳，添加水印更順滑，UP主剪輯利器 | 開源

低門檻、高效率實(shí)現(xiàn)圖像識(shí)別AI開發(fā)，這場(chǎng)公開課值得 | 英偉達(dá)公開課

谷歌版小鋼炮開源！0.27B大模型，4個(gè)注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬(wàn)美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強(qiáng)29%

吉利半年報(bào)喜人，但熱搜是高管為“背刺車主”道歉