極鏈科技兩次奪冠Google AI地標(biāo)識別大賽,識別檢索技術(shù)再進(jìn)階
經(jīng)過2個月的激烈角逐,由Google主辦的2019 Google地標(biāo)識別挑戰(zhàn)賽結(jié)果于近日揭曉,來自極鏈科技AI團隊的參賽者以大比分的優(yōu)勢取得第1名,這是極鏈科技在Google地標(biāo)大賽中第二次取得冠軍,也是中國AI團隊在國際競賽中又一次里程碑式的勝利。
作為本次挑戰(zhàn)賽的獲勝者,極鏈科技也將再次受邀在美國舉辦的CVPR 2019會議上發(fā)表技術(shù)研討,該會議是全球計算機視覺領(lǐng)域的頂級會議,在會議業(yè)界和學(xué)界都享負(fù)盛名。
去年,Google發(fā)布了Google-Landmarks,這是當(dāng)時世界上最大的地標(biāo)數(shù)據(jù)集,為了促進(jìn)實例級識別和圖像檢索方面的研究進(jìn)展,Google還并舉辦了兩場比賽:Landmark Recognition 2018和Landmark Retrieval 2018,有500多名研究人員和機器學(xué)習(xí)研究人員參加。
今年,谷歌又發(fā)布了一個全新的、更大的地標(biāo)數(shù)據(jù)集google-landmarks-v2。這是一個全新的、甚至更大的地標(biāo)識別數(shù)據(jù)集,該數(shù)據(jù)集中包含了413萬張圖片,是去年的3倍以上,地標(biāo)數(shù)量更是達(dá)到20萬種不同的地標(biāo)。這些地標(biāo)包括德國新天鵝堡、美國金門大橋、日本清水寺、吉薩大獅身人面像、馬丘比丘等。谷歌表示,數(shù)量如此龐大的圖片,之所以能夠完成標(biāo)注,多虧了世界各地攝影師社區(qū)的努力,才推動了數(shù)據(jù)集的產(chǎn)生。
谷歌AI軟件工程師Bingyi Cao和Tobias Weyand表示:“實例識別和圖像檢索方法都需要更大的數(shù)據(jù)集,包括圖像數(shù)量和各種標(biāo)志,以便訓(xùn)練更好,更強大的系統(tǒng)。我們希望這個數(shù)據(jù)集能夠幫助推進(jìn)實例識別和圖像檢索方面的最新技術(shù)。”
由于規(guī)模的差異,此數(shù)據(jù)集的多樣性要大得多,并且對最先進(jìn)的實例識別方法構(gòu)成了更大的挑戰(zhàn)?;谶@個新的數(shù)據(jù)集,Google以此為契機推出了2019 Google地標(biāo)識別挑戰(zhàn)賽,來號召全球的計算機視覺領(lǐng)域的科學(xué)精英共同參與,共同朝著更復(fù)雜的地標(biāo)檢測計算機視覺模型邁出巨大的一步。
2019 Google地標(biāo)識別挑戰(zhàn)賽谷歌依然在Kaggle平臺上進(jìn)行報名及提交,該平臺在全球范圍內(nèi)擁有數(shù)百萬的數(shù)據(jù)科學(xué)家用戶,是全球最具權(quán)威的數(shù)據(jù)科學(xué)競賽平臺。參賽機制需要參賽者在給定查詢圖像后,在數(shù)據(jù)庫中識別出包含查詢地標(biāo)的所有圖像,這對于上百萬級的數(shù)據(jù)體量與無關(guān)信息過多的圖像內(nèi)容而言,挑戰(zhàn)難度難以想象。
除此之外,由于檢測對象是地標(biāo)的原因,它的識別相對其他對象的同類操作之間也存在顯著差異。例如,就算在大型帶標(biāo)注的數(shù)據(jù)集里,那些不太熱門的地標(biāo),一般情況下是不存在訓(xùn)練數(shù)據(jù)的;另外,地標(biāo)通常是不可移動的剛性對象,此時圖像的捕獲條件,如遮擋、角度、天氣、光線等,都會對識別結(jié)果產(chǎn)生影響。
盡管如此,地標(biāo)識別挑戰(zhàn)賽仍舊吸引了來自全球的281支團隊,賽程先后歷時2個月,參賽者都是世界各地計算機視覺領(lǐng)域具有豐富經(jīng)驗的優(yōu)質(zhì)個人與團隊。極鏈科技的AI團隊最終以總分0.37606位列榜單第1名,超越了很多知名AI團隊;第2名和第3名的得分分別為0.35988和0.35541。
作為本次Google地標(biāo)識別挑戰(zhàn)賽的冠軍,極鏈科技的參賽AI團隊也分享了他們的獲勝方案:
本次比賽和去年存在相同的幾個難點:
1.類別數(shù)量極不平均: 平均每類20.35張樣本, 但不到20張的類別有15萬類,差不多是總數(shù)的4分之3,其中將近1萬9千類樣本數(shù)目更是只有1張;
2.由于未經(jīng)過任何人工清洗,訓(xùn)練集同一類別中存在很多圖片沒有任何共同點,或者同一地標(biāo)的圖片出現(xiàn)在不同類別內(nèi);
3.測試集內(nèi)存在大量干擾圖片。
本次比賽采用的方法大致如下(更詳細(xì)的介紹應(yīng)主辦方要求將會以論文形式上傳arXiv):
由于今年類別總數(shù)超過20萬,我們直接放棄CNN分類網(wǎng)絡(luò)的訓(xùn)練并選擇以檢索方法為中心思想,具體由以下兩個模型及三個步驟組成。
模型1:Global Retrieval Model。 在清理過的訓(xùn)練集(總共83萬張,11萬類)上訓(xùn)練的基于全局特征的檢索模型,backbone選用ResNet-101, ResNeXt-101, SE-ResNet-101, SE-ResNeXt-101, SENet-154五種基礎(chǔ)模型,pooling選用GeM, RMAC, MAC, SPoC四種,且每個global pooling后都接了1024維輸出的全連接層,最終的特征由以上四個pooling輸出(每個2048維)和四個全連接輸出(每個1024維)拼接組成,共12288維。 損失函數(shù)選擇Contrastive+Triplet同時訓(xùn)練,訓(xùn)練后利用attenuated unsupervised whitening降維至2048。 最終模型由以上這五個模型(對應(yīng)五個基礎(chǔ)網(wǎng)絡(luò))和開源的DIR模型加權(quán)拼接組成。
模型2:Local Retrieval Model。 此模型采用谷歌最近開源的Detect-to-Retrieve(簡稱D2R)模型 。(https://github.com/tensorflow/models/tree/master/research/delf)
步驟1:用模型1將所有11.8萬測試集圖片與413萬訓(xùn)練集圖片進(jìn)行比對,每張測試圖片保留與其最接近的五張訓(xùn)練圖片的相似度,并選取總和最高的類別作為最終預(yù)測。此步驟在private/public榜單分?jǐn)?shù)為0.25138/0.21534。
步驟2:和步驟1一樣,不過這次保留top-20訓(xùn)練圖片并用模型2進(jìn)行二次比對,最終預(yù)測選用二次比對top-5總分(D2R)最高的類別。此步驟在private/public榜單分?jǐn)?shù)為0.31870/0.26782。
步驟3:此步驟為整個流程中最關(guān)鍵的一步。由于比賽采取GAP機制評分,若干擾圖片在ranked list中排名過高會直接影響最終成績,對此我們采取以下re-ranking策略。 從步驟2的rank-1測試圖片開始,對所有排名靠后(直至rank-20000)的圖片用模型2進(jìn)行比對,若得分高于特定閾值(我們設(shè)定為23),則提高此圖片的排名。對所有top-500的測試圖片都進(jìn)行此操作后對重新排序的list進(jìn)行二次re-rank。此流程結(jié)束后private/public榜單分?jǐn)?shù)為0.36787/0.31626。最后,將此策略用在步驟1的預(yù)測上(這次選取top-300,由于步驟1的分?jǐn)?shù)相對較低),并將兩個新的re-ranked lists的top圖片以交叉形式排序,得分為最終奪冠分?jǐn)?shù)0.37606/0.32101。
另外,我們也嘗試了用模型1提取的特征訓(xùn)練MLP,并對其進(jìn)行以上步驟3的操作。此結(jié)果最終在private榜單上的分?jǐn)?shù)可以提高至0.37936, 不過可惜由于其在public榜單得分0.32100,我們沒有選取此次提交作為最終提交。
最后,極鏈科技的參賽AI團隊還表示他們在此次挑戰(zhàn)賽中運用到的算法將用于極鏈科技的產(chǎn)品中。
極鏈科技再次參加到Google地標(biāo)挑戰(zhàn)賽,是極鏈科技對識別技術(shù)的一次成果展示,也是極鏈科技對自己多年來深耕AI的技術(shù)自信。極鏈科技在場景識別、視頻識別等領(lǐng)域上已經(jīng)取得突出的成果,并成功在AI+視頻領(lǐng)域成為國內(nèi)頭部企業(yè)。此次在Google地標(biāo)挑戰(zhàn)賽中第二次奪得桂冠,也彰顯了極鏈科技在計算機視覺領(lǐng)域的領(lǐng)先實力。據(jù)悉,5月31日,極鏈科技與復(fù)旦大學(xué)聯(lián)合主辦的VideoNet視頻內(nèi)容識別挑戰(zhàn)賽正式接受注冊報名,未來,極鏈科技也將持續(xù)為促進(jìn)人工智能研發(fā),共同探索前沿領(lǐng)域的技術(shù)突破及應(yīng)用創(chuàng)新,以此成為新一代視頻AI領(lǐng)軍企業(yè)。
- 長城汽車自研芯片點亮!提前布局下一代架構(gòu)RISC-V,魏建軍:不能再受制于人2024-09-27
- 騰訊云發(fā)布自研大數(shù)據(jù)高性能計算引擎Meson,性能最高提升6倍2024-07-04
- Intel2024-03-18
- 數(shù)字員工全新發(fā)布 加速企業(yè)轉(zhuǎn)型2024-01-15