ECCV 2020最佳論文講了啥?作者為ImageNet一作、李飛飛高徒鄧嘉
清華大學(xué)校友
蕭簫 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
作為計(jì)算機(jī)視覺三大頂會(huì)之一,備受矚目的ECCV 2020(歐洲計(jì)算機(jī)視覺國(guó)際會(huì)議)最近公布了所有獎(jiǎng)項(xiàng)。
其中,最佳論文獎(jiǎng)被ImageNet一作、李飛飛高徒鄧嘉及其學(xué)生摘得。
這篇名為《RAFT: Recurrent All-Pairs Field Transforms for Optical Flow》的論文,究竟講了啥?
一起來(lái)學(xué)習(xí)一下。
視頻中的「光流預(yù)測(cè)」
在解讀這篇論文前,先來(lái)大致回顧一下論文涉及的領(lǐng)域,即光流預(yù)測(cè)。
光流預(yù)測(cè)是什么
在計(jì)算機(jī)視覺中,光流是一個(gè)有關(guān)物體運(yùn)動(dòng)的概念,指在一幀視頻圖像中,代表同一目標(biāo)的像素點(diǎn)到下一幀的移動(dòng)量,用向量表示。
根據(jù)光流的亮度恒定假設(shè),同一物體在連續(xù)的幀間運(yùn)動(dòng)時(shí),像素值不變(一只小鳥不會(huì)在運(yùn)動(dòng)時(shí)突然變成鴨或者飛機(jī))。
所以這個(gè)運(yùn)動(dòng)的過(guò)程,就像是光的“流動(dòng)”過(guò)程,簡(jiǎn)稱光流,預(yù)測(cè)光流的過(guò)程,就被稱之為光流預(yù)測(cè)。
應(yīng)用上,光流通常會(huì)用于視頻中的目標(biāo)跟蹤,例如TLD算法。
此外,光流還可以作為視覺里程計(jì)和SLAM同步定位,以及視頻動(dòng)作識(shí)別和視頻插幀等。
先前光流預(yù)測(cè)法的缺陷
根據(jù)是否選取圖像稀疏點(diǎn)(特征明顯,梯度較大),可以將光流預(yù)測(cè)分為稀疏光流和稠密光流,如下圖左和右。
其中,稀疏光流會(huì)選取圖像稀疏點(diǎn)進(jìn)行光流估計(jì);而在稠密光流里,為了表示方便,會(huì)使用不同的顏色和亮度表示光流的大小和方向。
針對(duì)這兩種方法,目前有傳統(tǒng)預(yù)測(cè)和基于深度學(xué)習(xí)的兩種經(jīng)典算法。
1、傳統(tǒng)方法:稀疏光流估計(jì)算法
求解光流預(yù)測(cè)算法前,首先要知道孔徑問題。
如圖,從圓孔中觀察移動(dòng)條紋的變化,發(fā)現(xiàn)條紋無(wú)論往哪個(gè)方向移動(dòng),從圓孔來(lái)看,移動(dòng)的變化都是一致的。
例子再通俗一點(diǎn),看看發(fā)廊的旋轉(zhuǎn)燈,燈上的條紋看起來(lái)總在往上走(其實(shí)沒有)。
其中一種傳統(tǒng)的Lucas-Kanade算法,是求解稀疏光流的方法,選取了一些可逆的像素點(diǎn)估計(jì)光流,這些像素點(diǎn)是亮度變化明顯(特征明顯)的角點(diǎn),借助可逆相關(guān)性質(zhì),預(yù)測(cè)光流方向。
2、深度學(xué)習(xí)方法:FlowNet
FlowNet是CNN用于光流預(yù)測(cè)算法的經(jīng)典例子。
在損失設(shè)計(jì)上,對(duì)于每個(gè)像素,損失定義為預(yù)測(cè)的光流值和真值(groundtruth)之間的歐氏距離,稱這種誤差為EPE,全稱End-Point-Error。
當(dāng)然,說(shuō)到這里,不得不提一句光流預(yù)測(cè)的經(jīng)典數(shù)據(jù)集FlyingChairs(飛椅)。
為了模擬目標(biāo)的多種運(yùn)動(dòng)方式,飛椅數(shù)據(jù)集將虛擬的椅子疊加到背景圖像中,并將背景圖和椅子用不同的仿射變換,得到對(duì)應(yīng)的另一張圖。
△?畫風(fēng)有點(diǎn)像玩?zhèn)€錘子
這個(gè)數(shù)據(jù)集也成為許多光流預(yù)測(cè)網(wǎng)絡(luò)必備的數(shù)據(jù)集之一。
然而,上述基于深度學(xué)習(xí)的經(jīng)典光流預(yù)測(cè)算法,存在著幾個(gè)缺點(diǎn),無(wú)論怎么優(yōu)化,這些缺點(diǎn)都會(huì)因?yàn)榭蚣茏陨矶恢贝嬖凇?/p>
但在RAFT,這個(gè)全稱光流循環(huán)全對(duì)場(chǎng)變換的框架中,過(guò)往的3大缺點(diǎn)都被一一解決了:
突破局限,三點(diǎn)創(chuàng)新
第一,先前的框架普遍采用從粗到細(xì)的設(shè)計(jì),也就是先用低分辨率估算流量,再用高分辨率采樣和調(diào)整。
相比之下,RAFT以高分辨率維護(hù)和更新單個(gè)固定的光流場(chǎng)。
這種做法帶來(lái)了如下幾個(gè)突破:低分辨率導(dǎo)致的預(yù)測(cè)錯(cuò)誤率降低,錯(cuò)過(guò)小而快速移動(dòng)目標(biāo)的概率降低,以及超過(guò)1M參數(shù)的訓(xùn)練通常需要的迭代次數(shù)降低。
第二,先前的框架包括某種形式上的迭代細(xì)化,但不限制迭代之間的權(quán)重,這就導(dǎo)致了迭代次數(shù)的限制。
例如,IRR使用的FlowNetS或PWC-Net作為循環(huán)單元,前者受網(wǎng)絡(luò)大?。▍?shù)量38M)限制,只能應(yīng)用5次迭代,后者受金字塔等級(jí)數(shù)限制。
相比之下,RAFT的更新運(yùn)算是周期性、輕量級(jí)的:這個(gè)框架的更新運(yùn)算器只有2.7M個(gè)參數(shù),可以迭代100多次。
第三,先前框架中的微調(diào)模塊,通常只采用普通卷積或相關(guān)聯(lián)層。
相比之下,更新運(yùn)算符是新設(shè)計(jì),由卷積GRU組成,該卷積GRU在4D多尺度相關(guān)聯(lián)向量上的表現(xiàn)更加優(yōu)異。
光流預(yù)測(cè)的效果
話不多說(shuō),先上RAFT光流預(yù)測(cè)的效果圖。
這是在Sintel測(cè)試集上的效果展示,最左邊是真值,最右邊是RAFT預(yù)測(cè)的光流效果,中間的VCN和IRR-PWC是此前效果較好的幾種光流預(yù)測(cè)框架。
可以看出,相較于中間兩個(gè)框架的預(yù)測(cè)效果,RAFT的預(yù)測(cè)不僅邊界更清晰,而且運(yùn)動(dòng)的大小和方向準(zhǔn)確(看顏色)。
此外,在KITTI數(shù)據(jù)集上的預(yù)測(cè)效果也非常不錯(cuò)。
圖左的幾輛小車被清楚地預(yù)測(cè)了出來(lái),而圖右中,駕駛方向不同的車輛也能用不同的顏色(紅、藍(lán))區(qū)分標(biāo)記。
不僅小視頻,在1080p的高分辨率視頻(DAVIS數(shù)據(jù)集)中,光流預(yù)測(cè)的效果也非常不錯(cuò)。
有意思的是,在訓(xùn)練參數(shù)(下圖橫軸)幾乎沒有明顯增加的情況下,RAFT在一系列光流預(yù)測(cè)框架中,EPE誤差(下圖縱軸)做到了最小。
由上圖可見,團(tuán)隊(duì)同時(shí)推出了5.3M參數(shù)量和1.0M輕量級(jí)的兩個(gè)框架,EPE誤差效果均非常好。
從效果來(lái)看,在KITTI數(shù)據(jù)集上,RAFT的F1-all誤差是 5.10%,相比此前的最優(yōu)結(jié)果(6.10%)減少了16%;在Sintel數(shù)據(jù)集上,RAFT只有2.855像素的端點(diǎn)誤差(End-Point-Error),相比先前的最佳結(jié)果(4.098 像素)減少了30%。
不僅推理效率高,而且泛化能力強(qiáng),簡(jiǎn)直就是光流預(yù)測(cè)中各方面超越SOTA的存在。
那么,RAFT的框架究竟是怎么設(shè)計(jì)的呢?
高性能端到端光流網(wǎng)絡(luò)架構(gòu)
從圖中可見,RAFT框架主要由三個(gè)部分構(gòu)成:特征編碼器、相關(guān)聯(lián)層(correlation layer)和基于GRU的更新運(yùn)算器。
其中,特征編碼器主要用來(lái)從輸入的2張圖中提取每個(gè)像素的特征,期間也包括一個(gè)上下文編碼器,專門用來(lái)提取圖1的特征。
至于相關(guān)聯(lián)層,則構(gòu)建了一個(gè)4D的W×H×W×H相關(guān)聯(lián)向量,用于表示所有特征向量對(duì)的點(diǎn)積(內(nèi)積)。當(dāng)然,這個(gè)4D向量的后2維會(huì)被多尺度采樣,用于構(gòu)建一系列多尺度向量。
下圖是構(gòu)建相關(guān)聯(lián)向量的方法,從圖中可見,作者將用了幾個(gè)2D片段來(lái)描述一整個(gè)4D向量。
在圖1的一個(gè)特征向量中,構(gòu)建了圖2中所有向量對(duì)的點(diǎn)積,從而生成了一個(gè)4D的W×H×W×H向量(其中,圖2的每個(gè)像素產(chǎn)生一個(gè)2D的響應(yīng)圖)。
這樣,就能用大小為{1,2,4,8}的卷積核對(duì)向量進(jìn)行平均采樣了。
而更新操作器,則通過(guò)光流預(yù)測(cè),來(lái)重復(fù)更新光流,以展現(xiàn)這一系列多尺度向量的向量值。
總結(jié)歸納一下,RAFT的框架流程分為三步,對(duì)每個(gè)像素提取特征,計(jì)算所有像素對(duì)的相關(guān)性,高效迭代更新光流場(chǎng)。
目前,RAFT框架已經(jīng)放出了GitHub的項(xiàng)目鏈接,想要學(xué)習(xí)代碼、或者復(fù)現(xiàn)的小伙伴們,可以戳文末傳送門~
作者介紹
這篇論文的第一作者是Zachary Teed。
Zachary Teed目前在普林斯頓大學(xué)讀博,是視覺與學(xué)習(xí)實(shí)驗(yàn)室的一名成員,導(dǎo)師為鄧嘉。目前的主要研究方向?yàn)橐曨l3D重建,包括運(yùn)動(dòng)、場(chǎng)景流和SLAM中的結(jié)構(gòu)。
此前,他曾獲圣路易斯華盛頓大學(xué)的計(jì)算機(jī)科學(xué)學(xué)士學(xué)位,并在那里取得了Langsdorf 獎(jiǎng)學(xué)金和 McKevely研究獎(jiǎng)。
而論文二作,則是普林斯頓大學(xué)計(jì)算機(jī)科學(xué)系助理教授鄧嘉。
鄧嘉曾于2006年本科畢業(yè)于清華大學(xué)計(jì)算機(jī)系,隨后赴美國(guó)普林斯頓大學(xué)讀博。
2007 年,李飛飛回到他的母校普林斯頓大學(xué)任職后便開始啟動(dòng) ImageNet 項(xiàng)目,李凱教授作為支撐,將鄧嘉介紹到李飛飛的實(shí)驗(yàn)組中,2012 年鄧嘉于普林斯頓大學(xué)獲計(jì)算機(jī)科學(xué)博士學(xué)位。
這并非他第一次獲ECCV最佳論文獎(jiǎng)。
2014 年,鄧嘉就曾憑借論文《Large-Scale Object Classification Using Label Relation Graphs》獲得當(dāng)年的ECCV最佳論文獎(jiǎng),并且是該研究的第一作者。
除此之外,他也是ImageNet論文的第一作者。
傳送門
論文鏈接:
https://arxiv.org/abs/2003.12039
項(xiàng)目鏈接:
https://github.com/princeton-vl/RAFT
- 英偉達(dá)最新芯片B30A曝光2025-08-20
- AI應(yīng)用如何落地政企?首先不要卷通用大模型2025-08-12
- 本科必學(xué)Dijkstra算法被超越!清華段然團(tuán)隊(duì)打破圖靈獎(jiǎng)得主證明的普遍最優(yōu)性2025-08-09
- 智能體邁入L4 時(shí)代!納米AI多智能體蜂群,可創(chuàng)作最長(zhǎng)10分鐘AI視頻2025-08-06