你算個(gè)什么鳥?AI十級(jí)“找茬”選手誕生
識(shí)別準(zhǔn)確率達(dá)91.3%
楊凈 豐色 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
你算個(gè)什么鳥?
面對(duì)上面這兩張圖,一個(gè)AI發(fā)出了靈魂拷問。
左邊桃面牡丹鸚鵡,右邊費(fèi)氏牡丹鸚鵡。
一眼識(shí)破的它早就看到左邊的鳥的喙部和眼圈與右邊的不一樣。
不行,再來!再來看這組。(文末揭曉答案)
好,我放棄了。
這個(gè)來自浙大計(jì)算機(jī)學(xué)院和阿里安全的“找茬”選手,識(shí)別準(zhǔn)確率達(dá)到了91.3%,已經(jīng)是業(yè)內(nèi)最優(yōu)水平。研究成果已被多媒體國際頂會(huì)ACM MM 2021收錄。
不光鳥,阿貓阿狗也能行,甚至花草植物也能行。
看看這連兩張照片,吉娃娃還是英國玩具梗?
再來看這一波,羊駝還是美洲駝?驢還是騾?玫瑰還是羽衣甘藍(lán)?
AI好眼力!那到底是如何練成的?
AI如何練就的一副好眼力?
實(shí)際上,這涉及到計(jì)算機(jī)視覺領(lǐng)域一個(gè)經(jīng)典問題——細(xì)粒度圖像識(shí)別,讓AI一眼鎖定類別之間的細(xì)微差異。
看起來簡(jiǎn)單,實(shí)際不簡(jiǎn),就比如下面左邊這倆。
對(duì)于AI來說,區(qū)域注意力的定位和放大是保證識(shí)別準(zhǔn)確率一個(gè)重要因素,此前大量基于CNN的探索發(fā)現(xiàn),CNN的感受野有限,且缺乏全局依賴關(guān)系的建模能力。
感受野:網(wǎng)絡(luò)內(nèi)部的不同位置的神經(jīng)元對(duì)原圖像的感受范圍
研究人員認(rèn)為,與CNN相比,圖像序列化是一種全新的方式。
他們把目光轉(zhuǎn)向了最近在CV領(lǐng)域取得了非常多研究進(jìn)展的視覺Transformer(ViT)。
一開始,研究人員引入了ViT中的自注意力機(jī)制,提取圖像中的長距離依賴關(guān)系。
不過ViT的感受野大小相對(duì)固定,對(duì)圖像中的每個(gè)patch的關(guān)注程度沒有產(chǎn)生區(qū)分,也就給細(xì)粒度圖像識(shí)別帶來了性能局限。
既然如此,那該如何讓AI找準(zhǔn)“重點(diǎn)”呢?
研究人員決定使用注意力權(quán)重的強(qiáng)度來衡量對(duì)應(yīng)于原始圖像的patch重要性,提出了多尺度循環(huán)注意力的Transformer(RAMS-Trans)。
它利用Transformer的自注意力機(jī)制,以多尺度的方式循環(huán)地學(xué)習(xí)判別性區(qū)域注意力。
團(tuán)隊(duì)成員之一,阿里安全圖靈實(shí)驗(yàn)室算法專家炫謙介紹道:
我們方法的核心是動(dòng)態(tài)patch建議模塊?(DPPM)引導(dǎo)區(qū)域放大,以完成多尺度圖像patch塊的集成。
DPPM從全局圖像開始,迭代放大區(qū)域注意力,以每個(gè)尺度上產(chǎn)生的注意力權(quán)重的強(qiáng)度為指標(biāo),從全局到局部生成新的patch塊。
具體來說,首先提取ViT每層的自注意力機(jī)制,并進(jìn)行歸一化,然后采取累乘的方式對(duì)自注意力整合。
然后,得到了整合后的自注意力均值分布矩陣,由于細(xì)粒度圖像識(shí)別任務(wù)的關(guān)鍵因素在于局部注意力,其往往存在于圖像的局部區(qū)域,如鳥的尾部、喙和蛙類的頭部等。
因此研究者需要通過設(shè)定閾值的方式來“過濾”不需要的部位,增強(qiáng)對(duì)局部判別性區(qū)域的識(shí)別能力。
最后,研究者通過插值算法將選定的patch塊放大到原圖像的尺寸,通過共享參數(shù)的模型,重新進(jìn)行訓(xùn)練,整體結(jié)構(gòu)對(duì)應(yīng)于文章所提的多尺度循環(huán)機(jī)制。
下圖為RAMS-Trans在識(shí)別鳥類時(shí)根據(jù)注意力權(quán)重生成的注意圖(attention map)。
△第二、三行分別為從原始和重新訓(xùn)練過的注意權(quán)重生成
擴(kuò)展到更多動(dòng)物身上的效果:
戰(zhàn)績?nèi)绾危?/h1>
RAMS-Trans只需要ViT本身附帶的注意力權(quán)重,就可以很容易地進(jìn)行端到端的訓(xùn)練。
實(shí)驗(yàn)表明,除了高效的CNN模型外,RAMS-Trans的表現(xiàn)比同期進(jìn)行的工作更好,分別在CUB-200-2011(鳥類識(shí)別)、Stanford Dogs(狗類識(shí)別)、iNaturalist2017(動(dòng)植物識(shí)別)獲得SOTA。
分別達(dá)到91.3%、68.5%、92.4%的識(shí)別準(zhǔn)確率。
在不同種類動(dòng)植物的細(xì)粒度判別時(shí),RAMS-Trans可以聚焦到類別的獨(dú)特特征區(qū)域。
△第二、四、六行分別為放大到原圖像尺寸的的patch塊
針對(duì)不同類別識(shí)別準(zhǔn)確率不同,甚至還有較大的區(qū)別,一作浙大博士胡云青解釋道,主要有兩方面的因素。
一是因?yàn)镾tanford Dogs本身的類別數(shù)比其他兩個(gè)數(shù)據(jù)集都要小。只有120分類(CUB是200,而iNaturaList更是達(dá)到了5089)。
類別數(shù)越多,通常意味著該數(shù)據(jù)集的細(xì)粒度問題越嚴(yán)重,因此RAMS-Trans在更細(xì)粒度的數(shù)據(jù)集上取得的提升相對(duì)明顯。
二則因?yàn)樵谀硞€(gè)類別上大部分樣本具有相似的特征,而不同種類間的狗也具有明顯的判別性特征。
比如大部分博美都有相似的毛色和頭型;德牧和金毛之間,人眼就可以做到明顯區(qū)分。
通過消融實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)分辨率為320、閾值為1.3、patch方案為DPPM、patch塊大小為16×16時(shí),模型效果最好。
接下來,團(tuán)隊(duì)還將在兩個(gè)方面進(jìn)行優(yōu)化:
- 提高定位能力。
目前,RAMS-Trans在原圖上以patch為最小單位進(jìn)行判別性區(qū)域定位和放大的過程,對(duì)于細(xì)粒度圖像識(shí)別來說,這個(gè)較為“精細(xì)”的任務(wù)來說還是相當(dāng)粗曠。
- 動(dòng)態(tài)網(wǎng)絡(luò)的引入,包括動(dòng)態(tài)訓(xùn)練和動(dòng)態(tài)推理等。
另外,已經(jīng)有了可預(yù)見的應(yīng)用場(chǎng)景,比如野生動(dòng)物保護(hù)治理、山寨商標(biāo)的識(shí)別。
浙大&阿里安全
這項(xiàng)研究主要由浙江大學(xué)計(jì)算機(jī)學(xué)院、阿里安全圖靈實(shí)驗(yàn)室共同完成。
其中第一作者胡云青,目前浙江大學(xué)計(jì)算機(jī)學(xué)院DMAC實(shí)驗(yàn)室博士在讀,師從張寅教授。此外還是阿里安全圖靈實(shí)驗(yàn)室實(shí)習(xí)生。
論文鏈接:
https://arxiv.org/abs/2107.08192
- 英偉達(dá)最新芯片B30A曝光2025-08-20
- AI應(yīng)用如何落地政企?首先不要卷通用大模型2025-08-12
- 本科必學(xué)Dijkstra算法被超越!清華段然團(tuán)隊(duì)打破圖靈獎(jiǎng)得主證明的普遍最優(yōu)性2025-08-09
- 智能體邁入L4 時(shí)代!納米AI多智能體蜂群,可創(chuàng)作最長10分鐘AI視頻2025-08-06