CVPR作為全球頂級計(jì)算機(jī)視覺會議,每年都吸引很多全球知名企業(yè)及研究機(jī)構(gòu)參加。近日,創(chuàng)新奇智團(tuán)隊(duì)在CVPR 2023細(xì)粒度視覺分類(FGVC)賽事榮獲PlantTraits和SnakeCLEF賽道兩項(xiàng)冠軍,彰顯了在細(xì)粒度視覺分類領(lǐng)域的強(qiáng)大技術(shù)實(shí)力。
FGVC(Fine-Grained Visual Categorization)是CVPR主辦的細(xì)粒度視覺分類workshop競賽。本屆CVPR-FGVC10研討會由丹麥哥本哈根大學(xué)、美國加州理工學(xué)院、英國愛丁堡大學(xué)、美國麻省理工學(xué)院、英國倫敦大學(xué)學(xué)院、捷克共和國皮爾森西波西米亞大學(xué)、北京大學(xué)、Meta(Facebook)、Google等知名高校及機(jī)構(gòu)聯(lián)合主辦。
圖像分類在計(jì)算機(jī)視覺領(lǐng)域占據(jù)著重要地位,是最基礎(chǔ)和應(yīng)用最廣泛的任務(wù)之一,特別是細(xì)粒度分類,要求在區(qū)分出基本類別的基礎(chǔ)上,進(jìn)行更精細(xì)的子類劃分,如區(qū)分植物的種類、車的款式、狗的品種等。但在訓(xùn)練樣本數(shù)據(jù)有限且類別高度相似的領(lǐng)域中,現(xiàn)有技術(shù)的表現(xiàn)并不盡如人意。當(dāng)前,細(xì)粒度圖像分類成為計(jì)算機(jī)視覺領(lǐng)域的一個熱門研究課題,在工業(yè)界和實(shí)際生活中有著廣泛的業(yè)務(wù)需求和應(yīng)用場景。
PlantTraits賽題介紹及技術(shù)方案
PlantTraits 2023挑戰(zhàn)賽由德國萊比錫大學(xué)地球系統(tǒng)研究遙感中心(RSC4Earth, Leipzig University, Germany)主辦,旨在探索從有限的植物性狀數(shù)據(jù)中預(yù)測全球范圍內(nèi)的植物性狀,以及整個生態(tài)系統(tǒng)將如何對氣候變化做出反應(yīng)。賽事要求利用植物的圖像并結(jié)合植物生長環(huán)境與植物形狀之間的關(guān)系預(yù)測出植物性狀。賽題給定植物圖像數(shù)據(jù)、植物生長環(huán)境信息以及植物性狀的均值與方差進(jìn)行模型訓(xùn)練,要求參賽者使用深度學(xué)習(xí)的回歸模型從植物照片中預(yù)測植物屬性,比如長度、發(fā)芽率等30余項(xiàng)屬性。主辦方將根據(jù)各參賽隊(duì)伍提交的植物性狀文件計(jì)算出平均R2進(jìn)行排名。
該任務(wù)的一大難點(diǎn)在于數(shù)據(jù)量極少,單一類別植物至多只有6張圖像與之對應(yīng)。
為了解決上述問題,創(chuàng)新奇智團(tuán)隊(duì)選取ConvNeXtV2模型作為骨干網(wǎng)絡(luò)(backbone)??紤]到該任務(wù)為植物細(xì)粒度回歸任務(wù),因此首先采用遷移學(xué)習(xí)(Transfer Learning)方法,在iNaturelist數(shù)據(jù)集上對該模型進(jìn)行預(yù)訓(xùn)練,有效提升了該模型在植物特征提取方面的能力。同時,為了有效地利用植物生長環(huán)境等數(shù)據(jù),團(tuán)隊(duì)對這些meta數(shù)據(jù)進(jìn)行了歸一化。在通過ConvNeXtV2網(wǎng)絡(luò)提取出圖像特征和將歸一化后的meta數(shù)據(jù)拼接到圖像特征之后,然后再通過多層感知機(jī)(MLP)對特征進(jìn)行充分融合,輸出植物的類別概率值。
在整個處理過程中,團(tuán)隊(duì)使用不同的概率進(jìn)行數(shù)據(jù)添加和模型參數(shù)的丟棄,以獲得多個模型的推理結(jié)果,并將輸出的相應(yīng)類別的概率值取平均以獲得這些模型的最終分類結(jié)果。最終根據(jù)植物的類別確定出植物性狀分布的范圍后,再利用其均值進(jìn)行后處理替換便得到植物30余項(xiàng)屬性的數(shù)值。

SnakeCLEF2023賽題介紹及技術(shù)方案
SnakeCLEF2023由捷克西波西米亞大學(xué)(University of West Bohemia, Czechia)主辦,旨在推進(jìn)從圖像和元數(shù)據(jù)中識別蛇種的魯棒算法的開發(fā)。這一目標(biāo)在生物多樣性保護(hù)領(lǐng)域具有深遠(yuǎn)意義,也是保護(hù)人類生存健康的重要方面。賽事要求從給定的真實(shí)蛇種觀察數(shù)據(jù)集(對單一個體有多張照片和相應(yīng)的元數(shù)據(jù))中訓(xùn)練一個分類模型,對蛇的種類進(jìn)行預(yù)測,且模型大小限制為最大1GB。主辦方使用參賽隊(duì)伍提交的模型和推理代碼在私有數(shù)據(jù)上進(jìn)行推理,以確保結(jié)果的可復(fù)現(xiàn)性,最終根據(jù)推理出的結(jié)果計(jì)算識別得分并計(jì)算排名。得分由分類準(zhǔn)確率Acc、F1和有毒物種識別得分共同組成。
本次任務(wù)主要存在以下難點(diǎn):1)細(xì)粒度圖像識別:識別蛇種類的困難在于外觀上類內(nèi)部的高差異性以及類與類之間的低差異性,這取決于地理位置、顏色變化、性別或年齡。同時,許多物種在視覺上與其他物種相似(例如擬態(tài));2)長尾分布:訓(xùn)練集表現(xiàn)出顯著的長尾分布問題,樣本主要集中在少數(shù)類別上,部分類別樣本數(shù)較少;3)元數(shù)據(jù)的使用:如何利用主辦方提供的元數(shù)據(jù)提升模型的分類能力;4)識別有毒物種的魯棒性:正確地識別出有毒物種,并盡量避免將有毒物種識別為無毒物種;5)模型大小最大限制為1GB。
為了解決上述問題,創(chuàng)新奇智團(tuán)隊(duì)選取timm開源模型庫中的ConvNeXtV2模型作為骨干網(wǎng)絡(luò),提取圖像的深層特征并與淺層特征進(jìn)行融合。為了最大程度地利用訓(xùn)練數(shù)據(jù),團(tuán)隊(duì)將圖像分辨率調(diào)整為512×512,并對圖像進(jìn)行更魯棒的數(shù)據(jù)增強(qiáng),如隨機(jī)裁剪、隨機(jī)翻轉(zhuǎn)、對比度和飽和度增強(qiáng)以及CutMix等。針對數(shù)據(jù)集的長尾分布問題,使用長尾實(shí)例分割中的Seesaw損失,減輕對尾部類別的壓倒性懲罰,并補(bǔ)償因懲罰減少而導(dǎo)致的錯誤分類風(fēng)險。
此外,團(tuán)隊(duì)利用元數(shù)據(jù)中的國家地區(qū)代碼構(gòu)造文本提示詞,輸入到CLIP文本編碼器中獲取文本特征,與圖像特征進(jìn)行融合,并且團(tuán)隊(duì)設(shè)計(jì)了一個輕量的先驗(yàn)?zāi)P?,?jì)算樣本使用文本特征進(jìn)行分類的先驗(yàn)概率,在后處理階段與骨干模型一起計(jì)算聯(lián)合概率以提高模型的魯棒性。通過這種方式,元數(shù)據(jù)可以提供圖像中所缺乏的可靠地理位置信息,使模型如同人類專家一樣綜合多方面的信息之后進(jìn)行判斷。

在后處理階段,團(tuán)隊(duì)專門針對有毒物種的識別進(jìn)行魯棒性處理。對于模型針對某一樣本計(jì)算出其在類別上的概率分布,在分類過程中,一般采用概率最大值對應(yīng)的類別作為預(yù)測類別。這是不夠魯棒的,因?yàn)楫?dāng)模型對某一樣本預(yù)測的置信度較低時,其概率最大值也同樣較低。因此,對某一樣本,當(dāng)其預(yù)測類別的置信度較低時,我們對其概率分布進(jìn)行降序排序,如果其中前五個概率對應(yīng)的類別存在有毒物種時,則認(rèn)為這個樣本是有毒物種。通過這種方式,可以盡可能地防止有毒物種的誤判,也更符合人的直覺。
成果落地應(yīng)用
細(xì)粒度視覺分類在制造、零售、文娛等行業(yè)應(yīng)用廣泛,比如識別產(chǎn)品的瑕疵種類、識別身邊的動物/植物等。
作為參賽隊(duì)伍教練,這也是創(chuàng)新奇智CTO張發(fā)恩在本屆CVPR指導(dǎo)獲得的第二個細(xì)粒度視覺分類挑戰(zhàn)賽冠軍,他指出:“作為一家專注于人工智能商業(yè)化落地的企業(yè),創(chuàng)新奇智不僅關(guān)注學(xué)術(shù)研究和前沿技術(shù)發(fā)展趨勢,也積極地將研究成果應(yīng)用于實(shí)際業(yè)務(wù)場景中。未來,我們將繼續(xù)發(fā)揮在細(xì)粒度視覺分類領(lǐng)域的優(yōu)勢,不斷提升我們的技術(shù)實(shí)力和產(chǎn)品服務(wù)水平,推動前沿人工智能技術(shù)在傳統(tǒng)制造業(yè)的應(yīng)用落地。”
*本文獲刊轉(zhuǎn)載,觀點(diǎn)僅為作者所有
— 完 —