一個算法同時解決兩大CV任務(wù),讓目標(biāo)檢測和實(shí)例分割互相幫助,地平線實(shí)習(xí)生論文被AAAI 2020收錄
允中 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號 QbitAI
目標(biāo)檢測與實(shí)例分割是計(jì)算機(jī)視覺領(lǐng)域重要的兩個任務(wù),近年來出現(xiàn)了非常多優(yōu)秀的算法解決這兩個問題,且都取得了優(yōu)異的效果。
但是,卻鮮有文章深入分析兩者之間的關(guān)聯(lián),也就導(dǎo)致了諸如下圖所示的錯誤的出現(xiàn):
上面的結(jié)果由Mask R-CNN得到,可以看到由于邊界框定位不準(zhǔn)導(dǎo)致前兩張圖的實(shí)例掩碼缺失,以及后兩張圖的邊界框與實(shí)例掩碼不統(tǒng)一。
最近,來自中科院自動化所的碩士生王紹儒提出的算法,很好地解決了以上問題,可以同時完成目標(biāo)檢測與實(shí)例分割任務(wù),兩個任務(wù)能相互輔助,同時取得了性能的提升。
論文一作王紹儒現(xiàn)在也是地平線公司的一名實(shí)習(xí)生,他的論文已被AAAI 2020收錄,相關(guān)工作已經(jīng)開源。
雙流網(wǎng)絡(luò)
這篇文章認(rèn)為,目標(biāo)檢測屬于目標(biāo)級別的任務(wù),這類任務(wù)更關(guān)注物體級別的特征,對分辨率的需求不高,但需要更多的高級語義信息。
而實(shí)例分割任務(wù)屬于像素級別的任務(wù),這類任務(wù)需要給出逐像素的輸出,對分辨率的需求較高,需要更多的細(xì)節(jié)信息。
因此作者設(shè)計(jì)了如圖所示的雙流網(wǎng)絡(luò):
上面的object stream重點(diǎn)完成目標(biāo)檢測任務(wù),可以是SSD, YOLO, RetinaNet等任一anchor-based的目標(biāo)檢測算法。
下面的pixel stream重點(diǎn)完成分割的任務(wù),分辨率很高。
兩個任務(wù)相互輔助
“物體”輔助實(shí)例分割:
目前常見的實(shí)例分割算法分為兩類,一類是類似于Mask R-CNN的proposal-based的方法,是目標(biāo)檢測算法的直接擴(kuò)展。
但這類方法會面臨上文提到的諸多問題,得到的實(shí)例掩碼分辨率相對較低且嚴(yán)重依賴于proposal的邊界框。
另一類基于分割算法,首先預(yù)測每個點(diǎn)的嵌入,然后再通過聚類得到每個實(shí)例的掩碼。
這類方法天然克服了proposal-based的缺陷,但一般無法端到端訓(xùn)練,且受限于聚類算法,性能一般有限。
仔細(xì)分析發(fā)現(xiàn),聚類的難題主要源于聚類中心的缺失,換句話說,如果我們擁有每個簇的中心,我們就可以拋棄聚類算法,進(jìn)行端到端訓(xùn)練。
而這個“中心”,應(yīng)該是每個物體的嵌入,也就是說,它應(yīng)該源于目標(biāo)級別,而非像素級別。因此,也就形成了論文里提出的基于相關(guān)濾波的實(shí)例掩碼生成算法:
Object stream和pixel stream分別提取目標(biāo)和像素的嵌入,屬于同一物體的像素和與其對應(yīng)的物體具有相近的嵌入,相似性的衡量采用了內(nèi)積相似度。
也就是說,對于每個檢測到的物體,以其嵌入作為內(nèi)核,在像素嵌入上執(zhí)行相關(guān)濾波,即可得到這一物體的掩碼。
除此之外,文中還充分利用了object stream得到的目標(biāo)邊界框,對距離物體中心較遠(yuǎn)的噪聲進(jìn)行了抑制,本質(zhì)上是在一定程度上克服CNN的translation-variant對實(shí)例分割任務(wù)的影響。
“掩碼”輔助目標(biāo)檢測:
邊界框定位是目標(biāo)檢測的一項(xiàng)重要任務(wù),而現(xiàn)有的方法大多采用回歸的方式得到邊界框的位置。然而我們回顧邊界框的定義,發(fā)現(xiàn)它本身就是通過物體的掩碼定義的。
那么,既然我們可以得到物體的掩碼,為什么還要依賴于回歸算法,多此一舉呢?
文中通過實(shí)驗(yàn)發(fā)現(xiàn),直接利用通過上述基于相關(guān)濾波方法得到的實(shí)例掩碼生成邊界框,精度并不太高,甚至低于回歸方法得到的邊界框。
文章作者通過可視化發(fā)現(xiàn):大多數(shù)物體的掩碼都可以提供十分準(zhǔn)確的邊界框,然而也存在部分物體的掩碼預(yù)測結(jié)果不太理想,使得邊界框出現(xiàn)了較大的偏移。
據(jù)此觀察,文章提出了一種基于貝葉斯公式的邊界框定位算法,首先將邊界框定位定義為分類任務(wù),將問題轉(zhuǎn)化為給定物體掩碼,坐標(biāo)屬于邊界框的后驗(yàn)概率的預(yù)測:
然后利用貝葉斯公式,將回歸得到的邊界框作為先驗(yàn)概率P(X=i),而P(M’|X=i)則由物體實(shí)例掩碼通過逐列(行)取最大、一維卷積和激活函數(shù)得到。
整體過程如下圖所示:
此方法綜合考慮了回歸得到的邊界框和實(shí)例掩碼的優(yōu)勢,得到了更準(zhǔn)確的邊界框。具體結(jié)果可以看下圖,可以明顯發(fā)現(xiàn),由此方法得到的邊界框可以以更高的IOU和ground truth box匹配。
實(shí)驗(yàn)結(jié)果:
文章在COCO數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。
在實(shí)例分割任務(wù)中,此方法在單階段算法中可以達(dá)到更優(yōu)的速度與精度的平衡,以近3倍的速度取得了和TensorMask相近的精度,以相近的速度在YOLACT的基礎(chǔ)上取得了2.3mAP的提升。
在目標(biāo)檢測任務(wù)中,此方法以極低的計(jì)算代價在不同的backbone上取得了一致的性能提升。
值得注意的是,文章中采用的是RetinaNet作為探測器,且在其基礎(chǔ)上擴(kuò)展到實(shí)例分割任務(wù)中并不會帶來顯著的計(jì)算量的增加,如果采用其他更先進(jìn)的目標(biāo)檢測算法,其精度與速度還能取得更進(jìn)一步的提升。
傳送門
論文地址:
https://arxiv.org/abs/1912.05070
源代碼:
https://github.com/wangsr126/RDSNet
- AI時代硬核EMBA來了!交大高金「科技強(qiáng)國計(jì)劃」全額獎學(xué)金等你來拿2025-08-06
- 通義靈碼上線Qwen3-Coder,免費(fèi)使用不限量2025-07-26
- 阿里千問3推理模型重磅更新,比肩Gemini-2.5 pro、o4-mini2025-07-25
- 人工智能創(chuàng)新創(chuàng)業(yè)大賽總決賽圓滿收官2025-07-12