ECCV 2020最佳論文講了啥?作者為ImageNet一作、李飛飛高徒鄧嘉
清華大學(xué)校友
蕭簫 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
作為計算機(jī)視覺三大頂會之一,備受矚目的ECCV 2020(歐洲計算機(jī)視覺國際會議)最近公布了所有獎項。
其中,最佳論文獎被ImageNet一作、李飛飛高徒鄧嘉及其學(xué)生摘得。
這篇名為《RAFT: Recurrent All-Pairs Field Transforms for Optical Flow》的論文,究竟講了啥?
一起來學(xué)習(xí)一下。
視頻中的「光流預(yù)測」
在解讀這篇論文前,先來大致回顧一下論文涉及的領(lǐng)域,即光流預(yù)測。
光流預(yù)測是什么
在計算機(jī)視覺中,光流是一個有關(guān)物體運動的概念,指在一幀視頻圖像中,代表同一目標(biāo)的像素點到下一幀的移動量,用向量表示。
根據(jù)光流的亮度恒定假設(shè),同一物體在連續(xù)的幀間運動時,像素值不變(一只小鳥不會在運動時突然變成鴨或者飛機(jī))。
所以這個運動的過程,就像是光的“流動”過程,簡稱光流,預(yù)測光流的過程,就被稱之為光流預(yù)測。
應(yīng)用上,光流通常會用于視頻中的目標(biāo)跟蹤,例如TLD算法。
此外,光流還可以作為視覺里程計和SLAM同步定位,以及視頻動作識別和視頻插幀等。
先前光流預(yù)測法的缺陷
根據(jù)是否選取圖像稀疏點(特征明顯,梯度較大),可以將光流預(yù)測分為稀疏光流和稠密光流,如下圖左和右。
其中,稀疏光流會選取圖像稀疏點進(jìn)行光流估計;而在稠密光流里,為了表示方便,會使用不同的顏色和亮度表示光流的大小和方向。
針對這兩種方法,目前有傳統(tǒng)預(yù)測和基于深度學(xué)習(xí)的兩種經(jīng)典算法。
1、傳統(tǒng)方法:稀疏光流估計算法
求解光流預(yù)測算法前,首先要知道孔徑問題。
如圖,從圓孔中觀察移動條紋的變化,發(fā)現(xiàn)條紋無論往哪個方向移動,從圓孔來看,移動的變化都是一致的。
例子再通俗一點,看看發(fā)廊的旋轉(zhuǎn)燈,燈上的條紋看起來總在往上走(其實沒有)。
其中一種傳統(tǒng)的Lucas-Kanade算法,是求解稀疏光流的方法,選取了一些可逆的像素點估計光流,這些像素點是亮度變化明顯(特征明顯)的角點,借助可逆相關(guān)性質(zhì),預(yù)測光流方向。
2、深度學(xué)習(xí)方法:FlowNet
FlowNet是CNN用于光流預(yù)測算法的經(jīng)典例子。
在損失設(shè)計上,對于每個像素,損失定義為預(yù)測的光流值和真值(groundtruth)之間的歐氏距離,稱這種誤差為EPE,全稱End-Point-Error。
當(dāng)然,說到這里,不得不提一句光流預(yù)測的經(jīng)典數(shù)據(jù)集FlyingChairs(飛椅)。
為了模擬目標(biāo)的多種運動方式,飛椅數(shù)據(jù)集將虛擬的椅子疊加到背景圖像中,并將背景圖和椅子用不同的仿射變換,得到對應(yīng)的另一張圖。
△?畫風(fēng)有點像玩?zhèn)€錘子
這個數(shù)據(jù)集也成為許多光流預(yù)測網(wǎng)絡(luò)必備的數(shù)據(jù)集之一。
然而,上述基于深度學(xué)習(xí)的經(jīng)典光流預(yù)測算法,存在著幾個缺點,無論怎么優(yōu)化,這些缺點都會因為框架自身而一直存在。
但在RAFT,這個全稱光流循環(huán)全對場變換的框架中,過往的3大缺點都被一一解決了:
突破局限,三點創(chuàng)新
第一,先前的框架普遍采用從粗到細(xì)的設(shè)計,也就是先用低分辨率估算流量,再用高分辨率采樣和調(diào)整。
相比之下,RAFT以高分辨率維護(hù)和更新單個固定的光流場。
這種做法帶來了如下幾個突破:低分辨率導(dǎo)致的預(yù)測錯誤率降低,錯過小而快速移動目標(biāo)的概率降低,以及超過1M參數(shù)的訓(xùn)練通常需要的迭代次數(shù)降低。
第二,先前的框架包括某種形式上的迭代細(xì)化,但不限制迭代之間的權(quán)重,這就導(dǎo)致了迭代次數(shù)的限制。
例如,IRR使用的FlowNetS或PWC-Net作為循環(huán)單元,前者受網(wǎng)絡(luò)大?。▍?shù)量38M)限制,只能應(yīng)用5次迭代,后者受金字塔等級數(shù)限制。
相比之下,RAFT的更新運算是周期性、輕量級的:這個框架的更新運算器只有2.7M個參數(shù),可以迭代100多次。
第三,先前框架中的微調(diào)模塊,通常只采用普通卷積或相關(guān)聯(lián)層。
相比之下,更新運算符是新設(shè)計,由卷積GRU組成,該卷積GRU在4D多尺度相關(guān)聯(lián)向量上的表現(xiàn)更加優(yōu)異。
光流預(yù)測的效果
話不多說,先上RAFT光流預(yù)測的效果圖。
這是在Sintel測試集上的效果展示,最左邊是真值,最右邊是RAFT預(yù)測的光流效果,中間的VCN和IRR-PWC是此前效果較好的幾種光流預(yù)測框架。
可以看出,相較于中間兩個框架的預(yù)測效果,RAFT的預(yù)測不僅邊界更清晰,而且運動的大小和方向準(zhǔn)確(看顏色)。
此外,在KITTI數(shù)據(jù)集上的預(yù)測效果也非常不錯。
圖左的幾輛小車被清楚地預(yù)測了出來,而圖右中,駕駛方向不同的車輛也能用不同的顏色(紅、藍(lán))區(qū)分標(biāo)記。
不僅小視頻,在1080p的高分辨率視頻(DAVIS數(shù)據(jù)集)中,光流預(yù)測的效果也非常不錯。
有意思的是,在訓(xùn)練參數(shù)(下圖橫軸)幾乎沒有明顯增加的情況下,RAFT在一系列光流預(yù)測框架中,EPE誤差(下圖縱軸)做到了最小。
由上圖可見,團(tuán)隊同時推出了5.3M參數(shù)量和1.0M輕量級的兩個框架,EPE誤差效果均非常好。
從效果來看,在KITTI數(shù)據(jù)集上,RAFT的F1-all誤差是 5.10%,相比此前的最優(yōu)結(jié)果(6.10%)減少了16%;在Sintel數(shù)據(jù)集上,RAFT只有2.855像素的端點誤差(End-Point-Error),相比先前的最佳結(jié)果(4.098 像素)減少了30%。
不僅推理效率高,而且泛化能力強(qiáng),簡直就是光流預(yù)測中各方面超越SOTA的存在。
那么,RAFT的框架究竟是怎么設(shè)計的呢?
高性能端到端光流網(wǎng)絡(luò)架構(gòu)
從圖中可見,RAFT框架主要由三個部分構(gòu)成:特征編碼器、相關(guān)聯(lián)層(correlation layer)和基于GRU的更新運算器。
其中,特征編碼器主要用來從輸入的2張圖中提取每個像素的特征,期間也包括一個上下文編碼器,專門用來提取圖1的特征。
至于相關(guān)聯(lián)層,則構(gòu)建了一個4D的W×H×W×H相關(guān)聯(lián)向量,用于表示所有特征向量對的點積(內(nèi)積)。當(dāng)然,這個4D向量的后2維會被多尺度采樣,用于構(gòu)建一系列多尺度向量。
下圖是構(gòu)建相關(guān)聯(lián)向量的方法,從圖中可見,作者將用了幾個2D片段來描述一整個4D向量。
在圖1的一個特征向量中,構(gòu)建了圖2中所有向量對的點積,從而生成了一個4D的W×H×W×H向量(其中,圖2的每個像素產(chǎn)生一個2D的響應(yīng)圖)。
這樣,就能用大小為{1,2,4,8}的卷積核對向量進(jìn)行平均采樣了。
而更新操作器,則通過光流預(yù)測,來重復(fù)更新光流,以展現(xiàn)這一系列多尺度向量的向量值。
總結(jié)歸納一下,RAFT的框架流程分為三步,對每個像素提取特征,計算所有像素對的相關(guān)性,高效迭代更新光流場。
目前,RAFT框架已經(jīng)放出了GitHub的項目鏈接,想要學(xué)習(xí)代碼、或者復(fù)現(xiàn)的小伙伴們,可以戳文末傳送門~
作者介紹
這篇論文的第一作者是Zachary Teed。
Zachary Teed目前在普林斯頓大學(xué)讀博,是視覺與學(xué)習(xí)實驗室的一名成員,導(dǎo)師為鄧嘉。目前的主要研究方向為視頻3D重建,包括運動、場景流和SLAM中的結(jié)構(gòu)。
此前,他曾獲圣路易斯華盛頓大學(xué)的計算機(jī)科學(xué)學(xué)士學(xué)位,并在那里取得了Langsdorf 獎學(xué)金和 McKevely研究獎。
而論文二作,則是普林斯頓大學(xué)計算機(jī)科學(xué)系助理教授鄧嘉。
鄧嘉曾于2006年本科畢業(yè)于清華大學(xué)計算機(jī)系,隨后赴美國普林斯頓大學(xué)讀博。
2007 年,李飛飛回到他的母校普林斯頓大學(xué)任職后便開始啟動 ImageNet 項目,李凱教授作為支撐,將鄧嘉介紹到李飛飛的實驗組中,2012 年鄧嘉于普林斯頓大學(xué)獲計算機(jī)科學(xué)博士學(xué)位。
這并非他第一次獲ECCV最佳論文獎。
2014 年,鄧嘉就曾憑借論文《Large-Scale Object Classification Using Label Relation Graphs》獲得當(dāng)年的ECCV最佳論文獎,并且是該研究的第一作者。
除此之外,他也是ImageNet論文的第一作者。
傳送門
論文鏈接:
https://arxiv.org/abs/2003.12039
項目鏈接:
https://github.com/princeton-vl/RAFT
- 英偉達(dá)最新芯片B30A曝光2025-08-20
- AI應(yīng)用如何落地政企?首先不要卷通用大模型2025-08-12
- 本科必學(xué)Dijkstra算法被超越!清華段然團(tuán)隊打破圖靈獎得主證明的普遍最優(yōu)性2025-08-09
- 智能體邁入L4 時代!納米AI多智能體蜂群,可創(chuàng)作最長10分鐘AI視頻2025-08-06