刷新COCO目標(biāo)檢測紀(jì)錄!谷歌只靠AI擴(kuò)增數(shù)據(jù),就把一個(gè)模型變成SOTA,已開源
模型架構(gòu)完全不用動(dòng)。
栗子 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
谷歌大腦Quoc Le團(tuán)隊(duì),又訓(xùn)練出了一只地表最強(qiáng)的模型。
這是一個(gè)目標(biāo)檢測模型,從前并不是最強(qiáng)大。
但自從團(tuán)隊(duì)用機(jī)器學(xué)習(xí)解鎖了特別的數(shù)據(jù)擴(kuò)增策略,再用自動(dòng)擴(kuò)增來的新數(shù)據(jù)集訓(xùn)練目標(biāo)檢測模型,事情就完全不同了。
注意:目標(biāo)檢測和分類不一樣,分類不需要標(biāo)注邊界框,而目標(biāo)檢測需要。
△ 左邊是自動(dòng)擴(kuò)增數(shù)據(jù),右邊是成績提升
模型在COCO目標(biāo)檢測任務(wù)上,拿到了50.7 mAP的最高分,刷新從前的紀(jì)錄。
谷歌的方法,并沒有改變模型本身,但有效提升了準(zhǔn)確率,+2.3 mAP以上。
團(tuán)隊(duì)還強(qiáng)調(diào),AI在COCO數(shù)據(jù)集里學(xué)到的擴(kuò)增策略,直接遷移到其他數(shù)據(jù)集上,同樣可以提升準(zhǔn)確率。
現(xiàn)在,算法已經(jīng)開源了,AI學(xué)到的擴(kuò)增策略也在里面。
是怎樣的擴(kuò)增策略?
論文寫到,這里的數(shù)據(jù)擴(kuò)增只涉及了一些簡單變換 (Simple Transformations) :
有應(yīng)用在整張圖片上、但不會(huì)影響邊界框的那種變換,比如從圖像分類里借來的顏色變換?(Color Transformations)。
也有不影響整張圖片、但改變邊界框位置的那種變換,比如圖像平移 (Translating) 或剪切 (Shearing) 。
還有只針對(duì)邊界框里的目標(biāo),而進(jìn)行的變換。
注意,這些變換只用在訓(xùn)練過程中,不會(huì)用到測試環(huán)節(jié)里。
研究人員說,當(dāng)變換的數(shù)量越來越龐大的時(shí)候,就很難手動(dòng)把它們有效組合到一起了。
所以,就要用機(jī)器學(xué)習(xí),搜索出更適合目標(biāo)檢測任務(wù)的組合策略。
思路是這樣的:
團(tuán)隊(duì)把數(shù)據(jù)擴(kuò)增搜索?(Data Augmentation Search) 看做一個(gè)離散的優(yōu)化問題,優(yōu)化的是模型的泛化表現(xiàn)。
在自家的另一篇論文 (arXiv:1805.09501) 基礎(chǔ)上,把重點(diǎn)轉(zhuǎn)移到針對(duì)目標(biāo)檢測的擴(kuò)增策略上。
比起圖像分類任務(wù)的數(shù)據(jù)擴(kuò)增,目標(biāo)檢測的難點(diǎn)在于,要保持邊界框和發(fā)生形變的圖像之間的一致性?(Consistency) 。
而邊界框的標(biāo)注,也為數(shù)據(jù)擴(kuò)增提供了一種新的方式:只在邊界框里面修改圖像。就像上文講的那樣。
另外,團(tuán)隊(duì)還探索了在圖片發(fā)生幾何變換?(Geometric Transformations) 的情況下,怎樣去改變邊界框的位置。
具體方法是這樣的:
把擴(kuò)增策略定義成一組無序的子策略?(Sub-Policy) 。
在訓(xùn)練過程中,每個(gè)子策略都會(huì)被隨機(jī)選中,應(yīng)用到當(dāng)前的圖片里去。
每個(gè)子策略里,有N個(gè)圖片變換,依次在同一張圖上進(jìn)行。
要把這個(gè)搜索過程,變成一個(gè)離散的優(yōu)化問題,就要?jiǎng)?chuàng)建一個(gè)搜索空間。
空間里面,有5個(gè)種策略,每種子策略有2種圖像變換運(yùn)算。
另外,每個(gè)運(yùn)算還和兩個(gè)超參數(shù)相關(guān)聯(lián),一個(gè)是代表應(yīng)用這個(gè)運(yùn)算的可能性 (Probability) ,二是這個(gè)運(yùn)算的大小 (Magnitude) 。
初步實(shí)驗(yàn)之后,團(tuán)隊(duì)定下了22種圖像變換運(yùn)算。
學(xué)習(xí)完成的子策略,成效是這樣的:
肉眼可見,成效顯著。
一是在COCO目標(biāo)檢測中,以50.7 mAP拔得頭籌,(比策略訓(xùn)練前) 提升了2.3 mAP。
二是在PASCAL VOC目標(biāo)檢測中,提升了2.7 mAP。
也就是說,在COCO上訓(xùn)練好的策略,直接搬到其他數(shù)據(jù)集上也有效。
團(tuán)隊(duì)說,這個(gè)方法尤其適合在小數(shù)據(jù)集中避免過擬合。
現(xiàn)在,代碼開源了,你也要試試么?
論文傳送門:
https://arxiv.org/abs/1906.11172
代碼傳送門:
https://github.com/tensorflow/tpu/tree/master/models/official/detection
- 馬云正式卸任后,阿里巴巴開盤跌0.87%2019-09-10
- 亞馬遜在華拓展云計(jì)算團(tuán)隊(duì),挑戰(zhàn)阿里巴巴和騰訊2019-10-16
- AI獨(dú)角獸云知聲,已完成一期科創(chuàng)板IPO輔導(dǎo)2019-10-17
- IDC:今年上半年中國公有云服務(wù)市場規(guī)模達(dá)54.2億美元2019-11-07