阿里達(dá)摩院實(shí)習(xí)生立功!何愷明Mask R-CNN精度提升,一半輸入數(shù)據(jù)量就行 | CVPR2020
乾明 十三 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
輸入的數(shù)據(jù)量更小,深度神經(jīng)網(wǎng)絡(luò)在圖像分類/分割任務(wù)上的精度反而提升了。
這就是阿里達(dá)摩院提出的圖像分析新方法:“頻域?qū)W習(xí)”(Learning in the Frequency Domain)。
核心要義,是省略圖像壓縮/解壓縮中計(jì)算量最大的步驟,直接利用頻域特征來進(jìn)行圖像推理,減少系統(tǒng)中模塊之間的數(shù)據(jù)傳輸量,從而提升系統(tǒng)性能。
更難得可貴的是,如此成果出自同學(xué)少年——阿里達(dá)摩院實(shí)習(xí)生之手,已被CVPR 2020接收。
他們?cè)贗mageNet分類任務(wù)上測(cè)試了方法的有效性:
輸入數(shù)據(jù)相同的情況下,ResNet-50和MobileNetV2分別實(shí)現(xiàn)了1.41%和0.66%的top-1精度改進(jìn)。
即使只有一半大小的輸入數(shù)據(jù),ResNet-50的top-1精度仍然能夠提高1%。
不僅僅是圖像分類,在COCO數(shù)據(jù)集上,只使用一半大小的輸入數(shù)據(jù),“頻域?qū)W習(xí)”的方法就能提升何愷明Mask R-CNN的圖像分割結(jié)果。
對(duì)于當(dāng)前端側(cè)高效部署人工智能算法的需求來說,輸入數(shù)據(jù)量更小,但讓深度神經(jīng)網(wǎng)絡(luò)精度更高的“頻域?qū)W習(xí)”方法,無疑是提供了一個(gè)新思路。
為什么要在頻域上學(xué)習(xí)?
計(jì)算資源和內(nèi)存是有限制的,大多數(shù)卷積神經(jīng)網(wǎng)絡(luò)模型,只能接受低分辨率的RGB圖像(例如,224×224)。
因此,總是要經(jīng)過一個(gè)壓縮的過程,傳統(tǒng)圖像分析系統(tǒng)的基本框架如下。
圖像輸入(In)通常是RGB的空間域信號(hào),在編碼端經(jīng)過RGB-to-YCbCr的轉(zhuǎn)化、離散余弦變換(DCT)、量化(Quantization), 以及熵編碼(Entropy coding),得到壓縮后用來傳輸?shù)男盘?hào)。
Y表示亮度,Cb、Cr分別表示藍(lán)色和紅色的濃度偏移量成份。
這個(gè)信號(hào)傳輸?shù)浇獯a端,經(jīng)過對(duì)應(yīng)的熵解碼(Entropy decoding)、反量化(dequantization)、逆離散余弦變換(IDCT)、YCbCr-to-RGB轉(zhuǎn)化得到原圖像的重建圖像。
但這樣的過程,不可避免地會(huì)出現(xiàn)信息丟失和精度降低。
此前有學(xué)者提出過解決辦法,比如用學(xué)習(xí)任務(wù)感知的縮小網(wǎng)絡(luò)來減少信息丟失,但這些網(wǎng)絡(luò)通?;谔囟ㄈ蝿?wù),需要額外的計(jì)算,并不利于實(shí)際應(yīng)用。
那有沒有一種方法,過濾掉空間域冗余的信息,來節(jié)省解碼端到推理引擎間的數(shù)據(jù)帶寬呢?
這就是達(dá)摩院“頻域中學(xué)習(xí)”解決的核心問題。
他們提出在頻域,即離散余弦變換域(DCT)中重塑高分辨率圖像,而不是在空間域調(diào)整它們的大小,然后將重新形成的DCT系數(shù)提供給卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行推理,從而解決了這些問題。
同時(shí),這個(gè)方法幾乎不需要修改現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)模型,還是以RGB圖像作為輸入。達(dá)摩院的研究人員認(rèn)為,它可以作為常規(guī)的數(shù)據(jù)預(yù)處理管道的替代品。
整體上來看,“頻域?qū)W習(xí)”由數(shù)據(jù)預(yù)處理管道和一個(gè)輸入數(shù)據(jù)大小剪枝方法組成。
節(jié)省計(jì)算量:用頻域信息進(jìn)行機(jī)器學(xué)習(xí)
第一個(gè)可以改進(jìn)的地方,就是節(jié)省計(jì)算量。
還是以上圖為例,在整個(gè)圖像分析系統(tǒng)中,除去最后的圖像推理引擎,前期的壓縮、傳輸、解壓縮的瓶頸在于其中的DCT和IDCT模塊,因?yàn)檫@兩個(gè)變換是矩陣變換,而其他的操作基本都是基于點(diǎn)的操作。
若是能夠減少,甚至省略這兩個(gè)模塊,將會(huì)對(duì)圖像分析系統(tǒng)的前半部分帶來極大的性能提升。
也就是說,輸入到神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù),將不再是RGB顏色空間,而是YCbCr顏色空間。
以Y通道為例,假設(shè)圖像壓縮標(biāo)準(zhǔn)中默認(rèn)的8×8作為塊的尺寸(blocksize)。那么,對(duì)于每一個(gè)塊(block),就會(huì)得到64個(gè)DCT的信號(hào),對(duì)應(yīng)了64個(gè)不同的頻率分量。
若原始圖像的尺寸是W x H,那么將會(huì)有W/8 x H/8 個(gè)DCT信號(hào)組成的塊。每個(gè)塊中相同位置的頻率分量可以組成一個(gè)尺寸為W/8 x H/8的特征圖片(feature map),這樣就會(huì)產(chǎn)生8×8=64個(gè)特征圖片。
同樣的對(duì)于Cb和Cr通道,也可以各自產(chǎn)生64個(gè)特征圖片,共計(jì)64×3=192個(gè),如下圖所示。
接下來就是讓特征圖片的尺寸和神經(jīng)網(wǎng)絡(luò)的尺寸吻合。
以ResNet-50為例,通常接受的圖片輸入尺寸為224×224,經(jīng)過一次卷積層(stride=2)和池化之后,網(wǎng)絡(luò)的特征圖尺寸為56×56,和產(chǎn)生的頻率信號(hào)特征圖尺寸吻合。
可以將192個(gè)56×56的頻域特征圖,全部或者部分直接接在ResNet-50的第一個(gè)殘差塊(Residue Block)之前,從而達(dá)到不改變ResNet-50的結(jié)構(gòu),卻實(shí)現(xiàn)從頻域做機(jī)器識(shí)別的目的,如下圖所示。
值得注意的是,由于做了8×8的DCT變換,實(shí)際輸入的圖片大小為448×448,是標(biāo)準(zhǔn)ResNet-50輸入的兩倍。
節(jié)省帶寬:頻域信息重要性提取
節(jié)省帶寬也是性能提高的方法,因?yàn)槟承╊l率通道對(duì)推斷準(zhǔn)確性具有更大的影響。
所以,只保留那些最重要的頻率通道,并將它們傳輸?shù)紾PU/AI加速器進(jìn)行推理,是可行的。
這一步是通過在機(jī)器學(xué)習(xí)中添加gate的方法,來學(xué)習(xí)每一個(gè)特征圖片的重要性。
在訓(xùn)練中,不僅能得出用于圖像推理的神經(jīng)網(wǎng)絡(luò)中的權(quán)重,同時(shí)每一個(gè)特征圖的重要性也被確定。
現(xiàn)在擁有了選擇重要的頻率通道的方式。有兩種方案來減少從圖像解碼模塊到圖像推理引擎的數(shù)據(jù)帶寬,分別是動(dòng)態(tài)(Dynamic)方式和靜態(tài)(Static)方式。
所謂動(dòng)態(tài)方式,就是每一個(gè)頻率分量的選擇開關(guān)由當(dāng)前輸入的圖像決定,這種方法可以自適應(yīng)每一次圖像推理(inference)的不同輸入。
而靜態(tài)方式,就是通過訓(xùn)練(training)得到最重要的一些頻率分量。
這種靜態(tài)方式在推理的時(shí)候無需選擇開關(guān)的網(wǎng)絡(luò),不僅可以節(jié)省圖像解碼模塊到圖像推理引擎的帶寬,還可以在編碼模塊中忽略不重要的頻率分量,進(jìn)而減少圖像編碼的計(jì)算量、延時(shí),以及網(wǎng)絡(luò)傳輸?shù)膸挕?/p>
他們提出的實(shí)驗(yàn)結(jié)果表明,靜態(tài)方式下,輸入數(shù)據(jù)量減少87.5%,CNN 模型仍能保持相同的精度。
總的來說,就是利用頻域特征來進(jìn)行圖像推理,從而省略頻域到空間域的轉(zhuǎn)換,因?yàn)檫@個(gè)轉(zhuǎn)換是圖像壓縮/解壓縮中計(jì)算量最大的步驟。
同時(shí)可以在頻域選擇重要的信息,進(jìn)一步減少系統(tǒng)中模塊之間的數(shù)據(jù)傳輸量,從而提升整個(gè)系統(tǒng)的性能。
所以結(jié)果如何?
精度更高,輸入數(shù)據(jù)量卻減少
實(shí)驗(yàn)主要在圖像分類和實(shí)例分割——兩個(gè)極具代表性的機(jī)器學(xué)習(xí)任務(wù)進(jìn)行。
在圖像分類任務(wù)中,采用ImageNet(ILSVRC-2012)作為數(shù)據(jù)集,ResNet-50和MobileNetV2作為CNN模型。
經(jīng)過訓(xùn)練,得到了一張不同頻率分量重要性的熱力圖,描述了對(duì)應(yīng)192個(gè)頻率分量的重要性程度。
可以看出,Y(亮度)通道的重要性高于Cb和Cr通道,同時(shí)低頻分量的重要性高于高頻分量。
這樣,就可以利用“頻域?qū)W習(xí)”方法,一次訓(xùn)練了解如何分配帶寬資源。
從結(jié)果可以看出,與基線 ResNet-50相比,使用所有頻率通道時(shí),Top-1準(zhǔn)確率提高了1.4% 。
值得注意的是,DCT-48和 DCT-24分別選擇了48和24個(gè)頻率通道,輸入數(shù)據(jù)大小分別相當(dāng)于基線 ResNet-50的一半。
對(duì)于只有一半輸入數(shù)據(jù)大小的 DCT-24來說,Top-1的精度仍然提高了約1% 。
再用MobileNetV2作為基準(zhǔn)CNN模型,采用同樣的原理做實(shí)驗(yàn),得到結(jié)果如下:
選擇32和24個(gè)頻率通道時(shí),Top-1準(zhǔn)確率分別提高了0.664% 和0.58% 。
對(duì)于實(shí)例分割任務(wù),采用了COCO數(shù)據(jù)集,并使用Mask R-CNN作為深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),訓(xùn)練得到的192個(gè)頻率分量的熱力圖如下:
實(shí)驗(yàn)結(jié)果表明,當(dāng)輸入數(shù)據(jù)大小相等(DCT-48)或較小(DCT-24)時(shí),該方法優(yōu)于基于RGB的Mask R-CNN 基線。
DCT-48,可以提升大約0.8%的精度(37.3%到38.1% 以及 34.2%到35.0%)。DCT-24,即輸入數(shù)據(jù)大小減少一半的情況,讓bbox AP 和 Mask AP的性能分別提高了0.4。
應(yīng)用到COCO數(shù)據(jù)集中,實(shí)際分割圖像是這樣的:
阿里達(dá)摩院實(shí)習(xí)生領(lǐng)銜新研究
這一成果,一共有6名研究人員參與,他們分別來自阿里達(dá)摩院和亞利桑那州立大學(xué)。
論文的第一作者名為Kai Xu,文章的主要工作是他在阿里達(dá)摩院計(jì)算技術(shù)實(shí)驗(yàn)室作為研究實(shí)習(xí)生時(shí)完成的,他正在亞利桑那州立大學(xué)的讀博。
2011年,他本科畢業(yè)于山東大學(xué)電機(jī)及電子工程專業(yè),2014年在電子科技大學(xué)獲得碩士學(xué)位,2015年,前往亞利桑那州立大學(xué)攻讀博士學(xué)位。
他的指導(dǎo)教授名為Fengbo Ren,2008年本科畢業(yè)于浙江大學(xué),之后在加州大學(xué)洛杉磯分校獲得了碩士和博士學(xué)位。2015年1月開始在亞利桑那州立大學(xué)任教,也是論文作者之一。
Kai Xu的研究,集中在學(xué)習(xí)圖像和視頻的表征方面,致力于處理圖像/視頻壓縮,重建和理解任務(wù)。從2016年以來,他已經(jīng)在各個(gè)學(xué)術(shù)會(huì)議,比如ECCV、CVPR等發(fā)表了11篇論文,獲得了7項(xiàng)專利。
在2019年6月進(jìn)入達(dá)摩院實(shí)習(xí)之前,他還曾在三星美國研究機(jī)構(gòu)實(shí)習(xí)過。在達(dá)摩院,他的研究方向是發(fā)掘計(jì)算機(jī)視覺領(lǐng)域的高效算法。
除了Kai Xu和Fengbo Ren,其他4名研究人員Minghai Qin, Fei Sun, Yuyao Wang和Yen-Kuang Chen 均來自阿里達(dá)摩院計(jì)算技術(shù)實(shí)驗(yàn)室,其中Yen-Kuang Chen是IEEE Fellow。
這個(gè)馬云寄予厚望的研究機(jī)構(gòu),正逐步爆發(fā)出越來越大的能量,并在吸引更多的人才加入。Kai Xu和他們提出的“頻域?qū)W習(xí)”,就是最新的代表之一。
接下來,他們的研究目標(biāo)是對(duì)視頻壓縮系統(tǒng)做同樣的嘗試。他們認(rèn)為,視頻壓縮標(biāo)準(zhǔn)中包含了幀間運(yùn)動(dòng)預(yù)測(cè)/補(bǔ)償和幀內(nèi)預(yù)測(cè),對(duì)應(yīng)的頻域信息會(huì)有比較大的差別。
瞄準(zhǔn)何愷明的實(shí)習(xí)生們
越來越多的“實(shí)習(xí)生”,在人工智能的前沿研究中現(xiàn)出身影,也將成為人工智能領(lǐng)域發(fā)展的驅(qū)動(dòng)型力量。
比如字節(jié)跳動(dòng)的實(shí)習(xí)生王鑫龍(阿德萊德大學(xué)在讀博士生),提出了實(shí)例分割新方法SOLO,引入“實(shí)例類別”的概念,把實(shí)例分割問題轉(zhuǎn)化為分類問題,在一些指標(biāo)上,性能還要超過何愷明提出的Mask R-CNN。
還有地平線的一名實(shí)習(xí)生黃釗金(華中科技大學(xué)碩士生),也曾提出過性能優(yōu)于何愷明提出的Mask R-CNN的方案,并被CVPR 2019收錄。
也許你已經(jīng)發(fā)現(xiàn)了其中的規(guī)律,他們的目標(biāo)都是何愷明的Mask R-CNN,都提出了相應(yīng)的優(yōu)化與改進(jìn)方案。
一方面,Mask R-CNN在圖像分割領(lǐng)域的確是高山級(jí)別的存在,但另一方面,誰說沒有致敬的意思呢?
說不定,過幾年,這些實(shí)習(xí)生中就會(huì)出現(xiàn)另一個(gè)何愷明呢~
傳送門
論文地址:https://arxiv.org/pdf/2002.12416.pdf
- 商湯林達(dá)華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計(jì),讓70年經(jīng)驗(yàn)“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08