送餐送貨機(jī)器人、自動(dòng)駕駛車(chē)、掃地機(jī)器人,再也不用擔(dān)心撞上玻璃櫥窗了丨CVPR2020
中國(guó)團(tuán)隊(duì)AI論文,聚焦玻璃檢測(cè)
蕭簫 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
自動(dòng)送貨車(chē)撞上玻璃、掃地機(jī)器人撞碎玻璃傷行人……如今這些事件也即將成為過(guò)去式。
大連理工大學(xué)等單位研發(fā)了一個(gè)玻璃檢測(cè)神經(jīng)網(wǎng)絡(luò),能夠利用AI在真實(shí)環(huán)境下檢測(cè)玻璃。
△?圖左為目標(biāo)場(chǎng)景,圖右黃色部分為玻璃檢測(cè)
從圖中可見(jiàn),神經(jīng)網(wǎng)絡(luò)能很好地將玻璃從實(shí)際場(chǎng)景中分割出來(lái)。
但事實(shí)上,玻璃檢測(cè)絕非想象中那般簡(jiǎn)單,不僅因?yàn)樗鼛缀跏?strong>透明的,而且還具有反射性。
更何況,玻璃并沒(méi)有固定的形狀,無(wú)法根據(jù)外形判定某一區(qū)域是否存在玻璃。
既然如此,為什么人眼能這么準(zhǔn)確地判定出玻璃的存在呢?
全新的神經(jīng)網(wǎng)絡(luò)GDNet
研究發(fā)現(xiàn),人眼不僅能通過(guò)玻璃內(nèi)外部顏色的差異來(lái)判斷玻璃的存在,還能根據(jù)反射產(chǎn)生的光斑或重影發(fā)現(xiàn)玻璃。
這給了研究者們很大的啟發(fā),并最終設(shè)計(jì)了名為大視場(chǎng)上下文特征融合(Large-field Contextual Feature Integration ,下簡(jiǎn)稱(chēng)LCFI)的模塊。
△?LCFI模塊構(gòu)造
LCFI模塊用來(lái)同時(shí)提取高級(jí)語(yǔ)義特征和顏色紋理等低級(jí)特征兩種上下文特征,用于檢測(cè)真實(shí)場(chǎng)景中玻璃的存在。
為了提取大量上下文信息,通常的做法是采用大卷積核或進(jìn)行擴(kuò)張卷積,但前者會(huì)導(dǎo)致大計(jì)算量,后者則會(huì)稀疏采樣。
而且,這兩種方法并非最優(yōu)。
△?實(shí)驗(yàn)對(duì)比效果
研究發(fā)現(xiàn),采用非局部運(yùn)算(non-local)可以同時(shí)解決這兩個(gè)問(wèn)題,便有了LCFI模塊。
LCFI模塊采用空間可分離卷積,從水平和垂直兩個(gè)維度分別對(duì)圖像進(jìn)行卷積。
由于圖像中玻璃區(qū)域的信息非常復(fù)雜,且與非玻璃區(qū)域有一定的相似度,為了消除這種歧義,模塊將再進(jìn)行一遍卷積,不過(guò)這次是先從垂直、再?gòu)乃骄S度提取互補(bǔ)的上下文特征。
最后,將提取的特征進(jìn)行融合。
而這個(gè)LCFI模塊,是玻璃檢測(cè)神經(jīng)網(wǎng)絡(luò)GDNet中最核心的部分。
△?GDNet網(wǎng)絡(luò)示意圖
GDNet網(wǎng)絡(luò)整體工作原理如下:
第一步,使用預(yù)訓(xùn)練的ResNeXt101網(wǎng)絡(luò)用于多級(jí)特征提取,目的是獲得各種級(jí)別的特征。
第二步,在網(wǎng)絡(luò)最后嵌入四層LCFI模塊,目的是進(jìn)行各級(jí)別大視場(chǎng)內(nèi)上下文的特征學(xué)習(xí)。
第三步,將其中三個(gè)LCFI模塊的輸出通過(guò)注意模塊(Attention Module)進(jìn)行連接和融合,目的是生成大視場(chǎng)內(nèi)上下文的高級(jí)特征。
第四步,從這些高級(jí)特征中學(xué)習(xí)Attention Map,目的是引導(dǎo)大視場(chǎng)內(nèi)上下文的低級(jí)特征(例如第一個(gè)LCFI模塊的輸出),以將更多注意力集中在玻璃區(qū)域。
最后,通過(guò)級(jí)聯(lián)和注意力機(jī)制,融合高級(jí)與低級(jí)特征,目的是生成最終的玻璃特征圖。
GDNet的創(chuàng)新之處在于,它設(shè)計(jì)的LCFI模塊采用空間可分離卷積,更好地獲取了圖像中有關(guān)玻璃的特征。
雖然此前也有關(guān)于玻璃的目標(biāo)檢測(cè)研究,但基本集中在玻璃杯、器皿這樣的小型玻璃物體上,檢測(cè)方法也多從物體的形狀入手。
這次研究通過(guò)玻璃本身的特征,設(shè)計(jì)了具普適性的玻璃檢測(cè)網(wǎng)絡(luò),能有效防止自動(dòng)駕駛車(chē)輛對(duì)玻璃幕墻或玻璃門(mén)進(jìn)行誤判,避免發(fā)生碰撞事故。
除此之外,對(duì)于機(jī)器學(xué)習(xí)中的深度預(yù)測(cè)、場(chǎng)景理解和去反射等技術(shù)任務(wù),也有著重要的意義。
△?從上到下分別是深度預(yù)測(cè)、場(chǎng)景理解和去反射
當(dāng)然,真正要讓GDNet在實(shí)際玻璃檢測(cè)中發(fā)揮能力,離不開(kāi)數(shù)據(jù)集的制作。
為了使GDNet在實(shí)際應(yīng)用中能發(fā)揮出更好的效果,研究者們完成了世界上第一個(gè)大規(guī)模玻璃檢測(cè)數(shù)據(jù)集GDD。
首個(gè)大規(guī)模玻璃檢測(cè)數(shù)據(jù)集GDD
在玻璃檢測(cè)數(shù)據(jù)集(Glass Detection Dataset, GDD)中,共有3916張帶玻璃的圖片,其中2980張被隨機(jī)抽出,用于網(wǎng)絡(luò)訓(xùn)練,剩余936張作為測(cè)試集。
這三千多張玻璃圖片多來(lái)自浴室、辦公室、超市等地方,其中玻璃幕墻占多,其次是玻璃展示櫥窗、玻璃門(mén)、陳列柜、窗戶和玻璃護(hù)欄。
經(jīng)統(tǒng)計(jì),玻璃通常占據(jù)整張圖像20%~80%的大小,且整體分布傾向于圖像中央,這是由玻璃使用特性所決定的。
△?GDD數(shù)據(jù)集部分圖像展示
上圖為數(shù)據(jù)集中部分圖像的展示,可以看見(jiàn),圖像對(duì)玻璃和非玻璃部分進(jìn)行了分割,白色區(qū)域?yàn)椴A趨^(qū)域。
從圖例中就能看見(jiàn),無(wú)論是玻璃上貼著的標(biāo)簽、刮蹭的污漬,還是玻璃上透射和反射的圖像,都可能會(huì)在訓(xùn)練時(shí)對(duì)網(wǎng)絡(luò)產(chǎn)生影響。
與此同時(shí),數(shù)據(jù)集中也存在著只占圖像20%不到的邊角玻璃、或是幾乎充斥整個(gè)圖像的大玻璃塊,目的在于增加圖像的隨機(jī)性,使得神經(jīng)網(wǎng)絡(luò)具有更好的檢測(cè)效果。
檢測(cè)效果
事實(shí)上,測(cè)試也證明,無(wú)論是實(shí)際檢測(cè)效果、還是從數(shù)據(jù)分析來(lái)看,采用GDD數(shù)據(jù)集訓(xùn)練后的GDNet都達(dá)到了目前研究中玻璃檢測(cè)網(wǎng)絡(luò)的最好效果。(下圖中,所展示網(wǎng)絡(luò)均已用GDD數(shù)據(jù)集進(jìn)行訓(xùn)練)
從下圖來(lái)看,相較于其他較前沿的神經(jīng)網(wǎng)絡(luò),GDNet對(duì)玻璃區(qū)域的檢測(cè)準(zhǔn)確度明顯更高。
△?與最右邊的真值相比,目前最前沿的部分網(wǎng)絡(luò)和GDNet對(duì)玻璃的檢測(cè)效果
在準(zhǔn)確度上,相較于MirrorNet的85.07%和EGNet的85.04%,GDNet達(dá)到了87.63%的IoU。(IoU:真值與預(yù)測(cè)值交集/真值與預(yù)測(cè)值并集)
相比之下,其平均絕對(duì)誤差MAE則達(dá)到了0.063。
△?與其他神經(jīng)網(wǎng)絡(luò)相比,GDNet的各項(xiàng)指標(biāo)均處前列
可以想見(jiàn),在這樣的效果下,GDNet未來(lái)在玻璃檢測(cè)方向上還會(huì)有更進(jìn)一步的發(fā)展及應(yīng)用。
作者介紹
梅海洋,論文第一作者,目前在大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院的攻讀博士,主要研究方向?yàn)閳D像處理、計(jì)算機(jī)視覺(jué)與深度學(xué)習(xí)。
傳送門(mén)
論文地址
http://openaccess.thecvf.com/content_CVPR_2020/papers/Mei_Dont_Hit_Me_Glass_Detection_in_Real-World_Scenes_CVPR_2020_paper.pdf
項(xiàng)目地址
https://xinyangdut.github.io/mirror_glass/MirrorGlassDetection.htmlhttps://mhaiyang.github.io/CVPR2020_GDNet/index.html