加盟依圖科技后,顏水成首篇頂會(huì)論文提出“高效多人體姿態(tài)檢測(cè)SPM”
唐木 發(fā)自 天龍寺
量子位 出品 | 公眾號(hào) QbitAI
顏水成團(tuán)隊(duì)研究實(shí)力依然強(qiáng)勁。
從360到依圖,顏水成依然保持著高質(zhì)量的學(xué)術(shù)輸出。
最近提出的單階段高效人體姿態(tài)檢測(cè)模型SPM就是最好的例證,論文被ICCV收錄。
這篇論文從全新的角度處理了單圖像多人姿態(tài)檢測(cè)的問(wèn)題,通過(guò)新提出的結(jié)構(gòu)化位姿表示方法(Structured Pose Representation)將多人姿態(tài)檢測(cè)問(wèn)題從先前的兩階段方法濃縮為單階段檢測(cè),大幅度提高了人體位姿檢測(cè)的效率和精度。
讓我們先來(lái)看看這種新方法的檢測(cè)結(jié)果,對(duì)于單張圖像可以有效檢測(cè)出其中包含的人體及其每個(gè)關(guān)節(jié)的位置信息。
甚至可以檢測(cè)面部關(guān)鍵點(diǎn)位置:
三維檢測(cè)也不再話(huà)下:
在保證精度和性能的同時(shí),這種高效方法在速度上達(dá)到了將近20幀的速度,大幅超越先前算法。
結(jié)構(gòu)化位姿表示
這種方法的關(guān)鍵在于顏水成團(tuán)隊(duì)提出了一種新的位姿表達(dá)方法SPR(structure pose representation)將人體實(shí)例的位置關(guān)節(jié)的位姿統(tǒng)一起來(lái),簡(jiǎn)化了人體檢測(cè)和關(guān)節(jié)定位的流程,從而大幅圖提升了多人位姿估計(jì)的處理效率。
這種新的表示方法將圖像中的人體和關(guān)節(jié)位姿通過(guò)結(jié)構(gòu)化和層次化的方式來(lái)呈現(xiàn):
要充分理解SPR這種新表達(dá)的優(yōu)勢(shì),我們需要先回顧一下先前對(duì)于位姿檢測(cè)方法的流程。
多人位姿檢測(cè)的任務(wù)是在給定的圖像中估計(jì)出每一個(gè)人體實(shí)例的位置及其關(guān)節(jié)的位姿。
目前多人位姿估計(jì)將人體位置檢測(cè)和關(guān)節(jié)位姿檢測(cè)作為任務(wù)的兩個(gè)階段來(lái)進(jìn)行,主要是策略主要有自底向上和自頂向下兩種方法。
自頂向下的方法可以簡(jiǎn)單理解為先檢測(cè)人再分別檢測(cè)每個(gè)人的關(guān)節(jié)位姿。
這類(lèi)方法首先利用人體檢測(cè)器來(lái)定位和分離圖像中每一個(gè)人體實(shí)例,隨后再利用單人位姿估計(jì)器來(lái)對(duì)每一個(gè)實(shí)例的關(guān)節(jié)位姿進(jìn)行檢測(cè)和定位。
自底向上的方法則是一種先關(guān)節(jié)后人體的思路。這類(lèi)方法首先利用關(guān)節(jié)估計(jì)器尋找出圖像中所有的關(guān)節(jié)位姿,而后估計(jì)出圖中的人體實(shí)例,并通過(guò)求解圖切分問(wèn)題將對(duì)應(yīng)的關(guān)節(jié)賦予對(duì)應(yīng)的人。
無(wú)論是哪種方法,都需要進(jìn)行兩次檢測(cè),一次檢測(cè)人的位置,一次檢測(cè)關(guān)節(jié)的位置。兩個(gè)網(wǎng)絡(luò)就圍著同一張圖像需要處理兩次甚至更多次,這還不算數(shù)據(jù)交換和后處理帶來(lái)的延遲。
如果可以將兩個(gè)階段的檢測(cè)任務(wù)統(tǒng)一到一個(gè)框架里,一個(gè)網(wǎng)絡(luò)一次推理即可完成,那樣是不是就可以大大提高計(jì)算效率了?!
先前的方法之所以需要兩個(gè)階段,主要是由于關(guān)節(jié)位姿的表示需要基于人體實(shí)例的位置來(lái)進(jìn)行。顏水成團(tuán)隊(duì)從這個(gè)角度出發(fā),探索了新的關(guān)節(jié)位姿表達(dá)方式SPR。
想要單階段實(shí)現(xiàn)多人位姿估計(jì),就需要一個(gè)統(tǒng)一人體位置和關(guān)節(jié)位置的表達(dá)。SPR提出了一個(gè)很具有啟發(fā)的觀(guān)點(diǎn),它在常規(guī)的關(guān)節(jié)位置外引入了一個(gè)輔助關(guān)鍵位置——基準(zhǔn)關(guān)節(jié),這個(gè)基準(zhǔn)關(guān)節(jié)就代表了人體實(shí)例的位置。
這個(gè)獨(dú)特的關(guān)節(jié)表示成為了解決問(wèn)題的關(guān)鍵所在。
每個(gè)人體關(guān)鍵就可以表示為基于這一基準(zhǔn)關(guān)節(jié)的偏移。在這樣的表達(dá)下,檢測(cè)問(wèn)題就被轉(zhuǎn)換為了預(yù)測(cè)每個(gè)人體對(duì)應(yīng)的基準(zhǔn)關(guān)節(jié)以及各個(gè)關(guān)節(jié)相對(duì)于基準(zhǔn)關(guān)節(jié)的偏移量,兩階段為題就可以通過(guò)統(tǒng)一的關(guān)節(jié)表達(dá)而簡(jiǎn)化為單階段問(wèn)題:
這就是需要進(jìn)行估計(jì)的量,只需要估計(jì)出圖中每個(gè)人體基準(zhǔn)關(guān)鍵的位置和每個(gè)關(guān)鍵的相對(duì)偏移就能實(shí)現(xiàn)多人位姿估計(jì)。需要指出的是,只需要將對(duì)應(yīng)關(guān)節(jié)的偏移加上基準(zhǔn)位姿就可以轉(zhuǎn)換為先前的第i個(gè)人第j個(gè)關(guān)節(jié)的位姿表達(dá):
這種方法看上去已經(jīng)很好地將人體位置和關(guān)節(jié)位置統(tǒng)一在了一起。但人是在運(yùn)動(dòng)的,有些關(guān)節(jié)離中心的基準(zhǔn)關(guān)節(jié)偏移太大,直接從圖像中回歸出這些關(guān)節(jié)的偏移量難度較大誤差也大。怎么辦呢?
看看自己的手,從肩膀到手肘,從手肘到手腕,一級(jí)級(jí)相連。似乎手腕到手肘更近一些?
就是這個(gè)思路!基于人體的運(yùn)動(dòng)結(jié)構(gòu),將關(guān)節(jié)的位移分為了四個(gè)層級(jí),將相對(duì)于基準(zhǔn)關(guān)節(jié)的偏移轉(zhuǎn)換為了相對(duì)于上一級(jí)關(guān)節(jié)的偏移。其中基準(zhǔn)關(guān)節(jié)也就是人體位置在第一層,包括脖子、肩膀、臀部等軀干關(guān)節(jié)被歸為第二層,頭、肘、膝蓋則在第三級(jí)上、最后腕和踝則在最后一級(jí)。
人體各個(gè)關(guān)節(jié)偏移被重新表示為了與相鄰層級(jí)上一關(guān)節(jié)的相對(duì)偏移(加上了波浪線(xiàn)的新位移)。
這樣,手腕到身體中心的偏移就被巧妙地分解為手到肘、肘到肩、肩到中心的短距離位移疊加,減小了偏移估計(jì)的難度同時(shí)也充分利用了軀干構(gòu)造的結(jié)構(gòu)信息。
快到飛起的SPM
有了這種新的統(tǒng)一的結(jié)構(gòu)化的表示,新方法也應(yīng)運(yùn)而生。
利用這種統(tǒng)一的表示方法,單階段推理模型的任務(wù)就變得十分清晰了,從圖像中估計(jì)出每個(gè)人體實(shí)例的關(guān)節(jié)集合,包括了基準(zhǔn)關(guān)節(jié)和各個(gè)關(guān)節(jié)相對(duì)基準(zhǔn)關(guān)節(jié)的相對(duì)基準(zhǔn)關(guān)節(jié)的偏移情況。
這一名為SPM的模型采用了Hourglass network作為主干,這一網(wǎng)絡(luò)模型由多個(gè)Hourglass模塊堆疊而成,每個(gè)模塊則利用了U-Net的結(jié)構(gòu)來(lái)進(jìn)行特征抽取和解碼用于關(guān)節(jié)定位。為了充分復(fù)用低層級(jí)的空間信息來(lái)優(yōu)化高層語(yǔ)義信息,SPM加入了多個(gè)跳接層來(lái)實(shí)現(xiàn)跨層級(jí)的信息流動(dòng)。
在原始Hourglass模型的基礎(chǔ)上,SPM不僅使用了置信度回歸分支來(lái)預(yù)測(cè)每個(gè)人體的基準(zhǔn)位置、同時(shí)加入了偏移回歸分支來(lái)預(yù)測(cè)每個(gè)人體關(guān)節(jié)的偏移圖。通過(guò)這樣的方式SPM就能在一次前傳中獲得多人位姿的估計(jì)結(jié)果。
其損失函數(shù)也因此包含了基準(zhǔn)關(guān)節(jié)損失和各個(gè)關(guān)節(jié)偏移預(yù)測(cè)損失的兩部分:
實(shí)驗(yàn)結(jié)果
這一模型的有效性在包括MPII,PASCAL-Person-Part,MSCOCO以及CMU Panoptic等多個(gè)人體位姿數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。其中前三個(gè)為二維圖像數(shù)據(jù)集,最后一個(gè)為3D空間位姿標(biāo)記的數(shù)據(jù)集。
研究人員首先在MPII數(shù)據(jù)集上對(duì)多種算法的性能進(jìn)行了對(duì)比,結(jié)果顯示基于新表示方法下的SPM模型可以達(dá)到58ms的速度,比先前兩階段的方法中最快的自底向上方法提升了約五倍的速度,并實(shí)現(xiàn)了78.5%的mAP值,在效率和精度上都超過(guò)了先前的方法。
此外,研究人員還發(fā)現(xiàn)將SPR替換為層次SPR還可以進(jìn)一步提高模型的mAP,特別是對(duì)于離身體中心較遠(yuǎn)的腕和踝都得到了將近4%的mAP提升。結(jié)果清楚的表明關(guān)節(jié)的分層表示可以顯著提高多人位姿估計(jì)任務(wù)的性能。
這種方法還可以很方便的拓展到三維情況,在CMU Panoptic數(shù)據(jù)集中進(jìn)行的實(shí)驗(yàn)表明SPM對(duì)于位姿變化、遮擋、尺度和深度變化都很魯棒。
它改變了先前只能定性測(cè)評(píng)三維位姿數(shù)據(jù)的狀況,并在這一數(shù)據(jù)集上達(dá)到了77.8的3D-PCK。
顏水成團(tuán)隊(duì)
這一單階段多人位姿檢測(cè)模型在精度和速度上都實(shí)現(xiàn)了非常大的突破,讓高速的多人位姿檢測(cè)成為可能,同時(shí)也為三維位姿檢測(cè)問(wèn)題給出了可能的解決方案。
論文來(lái)自新加坡國(guó)立大學(xué)和依圖科技,這也是顏水成履新依圖之后發(fā)布首篇會(huì)議論文。
一作聶學(xué)成,是顏水成和馮佳時(shí)聯(lián)合指導(dǎo)的博士生,目前正在NUS進(jìn)行計(jì)算機(jī)視覺(jué)方面的研究工作,并在頂會(huì)頂刊上發(fā)表了多篇優(yōu)秀論文。
二作張健鋒畢業(yè)于武漢大學(xué),目前在馮佳時(shí)老師的指導(dǎo)下在NUS作為研究助理與聶學(xué)成緊密合作開(kāi)展視覺(jué)方面的研究工作。
顏水成老師是視覺(jué)領(lǐng)域的優(yōu)秀科學(xué)家,作為NUS視覺(jué)團(tuán)隊(duì)的帶頭人為學(xué)界貢獻(xiàn)了諸多研究成果,目前是依圖科技CTO。
馮佳時(shí)老師曾是顏水成老師的博士生,研究方向包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、大規(guī)模機(jī)器學(xué)習(xí)及其在視覺(jué)、數(shù)據(jù)分析和人工智能方面的應(yīng)用,目前領(lǐng)導(dǎo)著NUS學(xué)習(xí)與視覺(jué)實(shí)驗(yàn)室課題組的研究工作。
論文傳送門(mén):
https://arxiv.org/pdf/1908.09220.pdf