你算個什么鳥?AI十級“找茬”選手誕生
識別準確率達91.3%
楊凈 豐色 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
你算個什么鳥?
面對上面這兩張圖,一個AI發(fā)出了靈魂拷問。
左邊桃面牡丹鸚鵡,右邊費氏牡丹鸚鵡。
一眼識破的它早就看到左邊的鳥的喙部和眼圈與右邊的不一樣。
不行,再來!再來看這組。(文末揭曉答案)
好,我放棄了。
這個來自浙大計算機學(xué)院和阿里安全的“找茬”選手,識別準確率達到了91.3%,已經(jīng)是業(yè)內(nèi)最優(yōu)水平。研究成果已被多媒體國際頂會ACM MM 2021收錄。
不光鳥,阿貓阿狗也能行,甚至花草植物也能行。
看看這連兩張照片,吉娃娃還是英國玩具梗?
再來看這一波,羊駝還是美洲駝?驢還是騾?玫瑰還是羽衣甘藍?
AI好眼力!那到底是如何練成的?
AI如何練就的一副好眼力?
實際上,這涉及到計算機視覺領(lǐng)域一個經(jīng)典問題——細粒度圖像識別,讓AI一眼鎖定類別之間的細微差異。
看起來簡單,實際不簡,就比如下面左邊這倆。
對于AI來說,區(qū)域注意力的定位和放大是保證識別準確率一個重要因素,此前大量基于CNN的探索發(fā)現(xiàn),CNN的感受野有限,且缺乏全局依賴關(guān)系的建模能力。
感受野:網(wǎng)絡(luò)內(nèi)部的不同位置的神經(jīng)元對原圖像的感受范圍
研究人員認為,與CNN相比,圖像序列化是一種全新的方式。
他們把目光轉(zhuǎn)向了最近在CV領(lǐng)域取得了非常多研究進展的視覺Transformer(ViT)。
一開始,研究人員引入了ViT中的自注意力機制,提取圖像中的長距離依賴關(guān)系。
不過ViT的感受野大小相對固定,對圖像中的每個patch的關(guān)注程度沒有產(chǎn)生區(qū)分,也就給細粒度圖像識別帶來了性能局限。
既然如此,那該如何讓AI找準“重點”呢?
研究人員決定使用注意力權(quán)重的強度來衡量對應(yīng)于原始圖像的patch重要性,提出了多尺度循環(huán)注意力的Transformer(RAMS-Trans)。
它利用Transformer的自注意力機制,以多尺度的方式循環(huán)地學(xué)習(xí)判別性區(qū)域注意力。
團隊成員之一,阿里安全圖靈實驗室算法專家炫謙介紹道:
我們方法的核心是動態(tài)patch建議模塊?(DPPM)引導(dǎo)區(qū)域放大,以完成多尺度圖像patch塊的集成。
DPPM從全局圖像開始,迭代放大區(qū)域注意力,以每個尺度上產(chǎn)生的注意力權(quán)重的強度為指標(biāo),從全局到局部生成新的patch塊。
具體來說,首先提取ViT每層的自注意力機制,并進行歸一化,然后采取累乘的方式對自注意力整合。
然后,得到了整合后的自注意力均值分布矩陣,由于細粒度圖像識別任務(wù)的關(guān)鍵因素在于局部注意力,其往往存在于圖像的局部區(qū)域,如鳥的尾部、喙和蛙類的頭部等。
因此研究者需要通過設(shè)定閾值的方式來“過濾”不需要的部位,增強對局部判別性區(qū)域的識別能力。
最后,研究者通過插值算法將選定的patch塊放大到原圖像的尺寸,通過共享參數(shù)的模型,重新進行訓(xùn)練,整體結(jié)構(gòu)對應(yīng)于文章所提的多尺度循環(huán)機制。
下圖為RAMS-Trans在識別鳥類時根據(jù)注意力權(quán)重生成的注意圖(attention map)。
△第二、三行分別為從原始和重新訓(xùn)練過的注意權(quán)重生成
擴展到更多動物身上的效果:
戰(zhàn)績?nèi)绾危?/h1>
RAMS-Trans只需要ViT本身附帶的注意力權(quán)重,就可以很容易地進行端到端的訓(xùn)練。
實驗表明,除了高效的CNN模型外,RAMS-Trans的表現(xiàn)比同期進行的工作更好,分別在CUB-200-2011(鳥類識別)、Stanford Dogs(狗類識別)、iNaturalist2017(動植物識別)獲得SOTA。
分別達到91.3%、68.5%、92.4%的識別準確率。
在不同種類動植物的細粒度判別時,RAMS-Trans可以聚焦到類別的獨特特征區(qū)域。
△第二、四、六行分別為放大到原圖像尺寸的的patch塊
針對不同類別識別準確率不同,甚至還有較大的區(qū)別,一作浙大博士胡云青解釋道,主要有兩方面的因素。
一是因為Stanford Dogs本身的類別數(shù)比其他兩個數(shù)據(jù)集都要小。只有120分類(CUB是200,而iNaturaList更是達到了5089)。
類別數(shù)越多,通常意味著該數(shù)據(jù)集的細粒度問題越嚴重,因此RAMS-Trans在更細粒度的數(shù)據(jù)集上取得的提升相對明顯。
二則因為在某個類別上大部分樣本具有相似的特征,而不同種類間的狗也具有明顯的判別性特征。
比如大部分博美都有相似的毛色和頭型;德牧和金毛之間,人眼就可以做到明顯區(qū)分。
通過消融實驗發(fā)現(xiàn),當(dāng)分辨率為320、閾值為1.3、patch方案為DPPM、patch塊大小為16×16時,模型效果最好。
接下來,團隊還將在兩個方面進行優(yōu)化:
- 提高定位能力。
目前,RAMS-Trans在原圖上以patch為最小單位進行判別性區(qū)域定位和放大的過程,對于細粒度圖像識別來說,這個較為“精細”的任務(wù)來說還是相當(dāng)粗曠。
- 動態(tài)網(wǎng)絡(luò)的引入,包括動態(tài)訓(xùn)練和動態(tài)推理等。
另外,已經(jīng)有了可預(yù)見的應(yīng)用場景,比如野生動物保護治理、山寨商標(biāo)的識別。
浙大&阿里安全
這項研究主要由浙江大學(xué)計算機學(xué)院、阿里安全圖靈實驗室共同完成。
其中第一作者胡云青,目前浙江大學(xué)計算機學(xué)院DMAC實驗室博士在讀,師從張寅教授。此外還是阿里安全圖靈實驗室實習(xí)生。
論文鏈接:
https://arxiv.org/abs/2107.08192
- 英偉達最新芯片B30A曝光2025-08-20
- AI應(yīng)用如何落地政企?首先不要卷通用大模型2025-08-12
- 本科必學(xué)Dijkstra算法被超越!清華段然團隊打破圖靈獎得主證明的普遍最優(yōu)性2025-08-09
- 智能體邁入L4 時代!納米AI多智能體蜂群,可創(chuàng)作最長10分鐘AI視頻2025-08-06