CVPR作為全球頂級計算機視覺會議,每年都吸引很多全球知名企業(yè)及研究機構參加。近日,創(chuàng)新奇智團隊在CVPR 2023細粒度視覺分類(FGVC)賽事榮獲PlantTraits和SnakeCLEF賽道兩項冠軍,彰顯了在細粒度視覺分類領域的強大技術實力。
FGVC(Fine-Grained Visual Categorization)是CVPR主辦的細粒度視覺分類workshop競賽。本屆CVPR-FGVC10研討會由丹麥哥本哈根大學、美國加州理工學院、英國愛丁堡大學、美國麻省理工學院、英國倫敦大學學院、捷克共和國皮爾森西波西米亞大學、北京大學、Meta(Facebook)、Google等知名高校及機構聯(lián)合主辦。
圖像分類在計算機視覺領域占據著重要地位,是最基礎和應用最廣泛的任務之一,特別是細粒度分類,要求在區(qū)分出基本類別的基礎上,進行更精細的子類劃分,如區(qū)分植物的種類、車的款式、狗的品種等。但在訓練樣本數據有限且類別高度相似的領域中,現(xiàn)有技術的表現(xiàn)并不盡如人意。當前,細粒度圖像分類成為計算機視覺領域的一個熱門研究課題,在工業(yè)界和實際生活中有著廣泛的業(yè)務需求和應用場景。
PlantTraits賽題介紹及技術方案
PlantTraits 2023挑戰(zhàn)賽由德國萊比錫大學地球系統(tǒng)研究遙感中心(RSC4Earth, Leipzig University, Germany)主辦,旨在探索從有限的植物性狀數據中預測全球范圍內的植物性狀,以及整個生態(tài)系統(tǒng)將如何對氣候變化做出反應。賽事要求利用植物的圖像并結合植物生長環(huán)境與植物形狀之間的關系預測出植物性狀。賽題給定植物圖像數據、植物生長環(huán)境信息以及植物性狀的均值與方差進行模型訓練,要求參賽者使用深度學習的回歸模型從植物照片中預測植物屬性,比如長度、發(fā)芽率等30余項屬性。主辦方將根據各參賽隊伍提交的植物性狀文件計算出平均R2進行排名。
該任務的一大難點在于數據量極少,單一類別植物至多只有6張圖像與之對應。
為了解決上述問題,創(chuàng)新奇智團隊選取ConvNeXtV2模型作為骨干網絡(backbone)??紤]到該任務為植物細粒度回歸任務,因此首先采用遷移學習(Transfer Learning)方法,在iNaturelist數據集上對該模型進行預訓練,有效提升了該模型在植物特征提取方面的能力。同時,為了有效地利用植物生長環(huán)境等數據,團隊對這些meta數據進行了歸一化。在通過ConvNeXtV2網絡提取出圖像特征和將歸一化后的meta數據拼接到圖像特征之后,然后再通過多層感知機(MLP)對特征進行充分融合,輸出植物的類別概率值。
在整個處理過程中,團隊使用不同的概率進行數據添加和模型參數的丟棄,以獲得多個模型的推理結果,并將輸出的相應類別的概率值取平均以獲得這些模型的最終分類結果。最終根據植物的類別確定出植物性狀分布的范圍后,再利用其均值進行后處理替換便得到植物30余項屬性的數值。

SnakeCLEF2023賽題介紹及技術方案
SnakeCLEF2023由捷克西波西米亞大學(University of West Bohemia, Czechia)主辦,旨在推進從圖像和元數據中識別蛇種的魯棒算法的開發(fā)。這一目標在生物多樣性保護領域具有深遠意義,也是保護人類生存健康的重要方面。賽事要求從給定的真實蛇種觀察數據集(對單一個體有多張照片和相應的元數據)中訓練一個分類模型,對蛇的種類進行預測,且模型大小限制為最大1GB。主辦方使用參賽隊伍提交的模型和推理代碼在私有數據上進行推理,以確保結果的可復現(xiàn)性,最終根據推理出的結果計算識別得分并計算排名。得分由分類準確率Acc、F1和有毒物種識別得分共同組成。
本次任務主要存在以下難點:1)細粒度圖像識別:識別蛇種類的困難在于外觀上類內部的高差異性以及類與類之間的低差異性,這取決于地理位置、顏色變化、性別或年齡。同時,許多物種在視覺上與其他物種相似(例如擬態(tài));2)長尾分布:訓練集表現(xiàn)出顯著的長尾分布問題,樣本主要集中在少數類別上,部分類別樣本數較少;3)元數據的使用:如何利用主辦方提供的元數據提升模型的分類能力;4)識別有毒物種的魯棒性:正確地識別出有毒物種,并盡量避免將有毒物種識別為無毒物種;5)模型大小最大限制為1GB。
為了解決上述問題,創(chuàng)新奇智團隊選取timm開源模型庫中的ConvNeXtV2模型作為骨干網絡,提取圖像的深層特征并與淺層特征進行融合。為了最大程度地利用訓練數據,團隊將圖像分辨率調整為512×512,并對圖像進行更魯棒的數據增強,如隨機裁剪、隨機翻轉、對比度和飽和度增強以及CutMix等。針對數據集的長尾分布問題,使用長尾實例分割中的Seesaw損失,減輕對尾部類別的壓倒性懲罰,并補償因懲罰減少而導致的錯誤分類風險。
此外,團隊利用元數據中的國家地區(qū)代碼構造文本提示詞,輸入到CLIP文本編碼器中獲取文本特征,與圖像特征進行融合,并且團隊設計了一個輕量的先驗模型,計算樣本使用文本特征進行分類的先驗概率,在后處理階段與骨干模型一起計算聯(lián)合概率以提高模型的魯棒性。通過這種方式,元數據可以提供圖像中所缺乏的可靠地理位置信息,使模型如同人類專家一樣綜合多方面的信息之后進行判斷。

在后處理階段,團隊專門針對有毒物種的識別進行魯棒性處理。對于模型針對某一樣本計算出其在類別上的概率分布,在分類過程中,一般采用概率最大值對應的類別作為預測類別。這是不夠魯棒的,因為當模型對某一樣本預測的置信度較低時,其概率最大值也同樣較低。因此,對某一樣本,當其預測類別的置信度較低時,我們對其概率分布進行降序排序,如果其中前五個概率對應的類別存在有毒物種時,則認為這個樣本是有毒物種。通過這種方式,可以盡可能地防止有毒物種的誤判,也更符合人的直覺。
成果落地應用
細粒度視覺分類在制造、零售、文娛等行業(yè)應用廣泛,比如識別產品的瑕疵種類、識別身邊的動物/植物等。
作為參賽隊伍教練,這也是創(chuàng)新奇智CTO張發(fā)恩在本屆CVPR指導獲得的第二個細粒度視覺分類挑戰(zhàn)賽冠軍,他指出:“作為一家專注于人工智能商業(yè)化落地的企業(yè),創(chuàng)新奇智不僅關注學術研究和前沿技術發(fā)展趨勢,也積極地將研究成果應用于實際業(yè)務場景中。未來,我們將繼續(xù)發(fā)揮在細粒度視覺分類領域的優(yōu)勢,不斷提升我們的技術實力和產品服務水平,推動前沿人工智能技術在傳統(tǒng)制造業(yè)的應用落地?!?/p>
*本文獲刊轉載,觀點僅為作者所有
— 完 —