入圍CVPR最佳論文,這項(xiàng)AI基礎(chǔ)研究讓我們對(duì)虎牙刮目相看
AI正在變革視頻行業(yè),玩法越來(lái)越豐富。
曉查 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
AI正在變革視頻行業(yè),玩法越來(lái)越豐富。
近年來(lái),越來(lái)越多的AI技術(shù)開(kāi)始應(yīng)用到視頻網(wǎng)站中:
從簡(jiǎn)單的圖像和行為識(shí)別,可以像文字搜索一樣搜索圖像,還能后期“無(wú)中生有”各種各樣的效果。
到視頻直播實(shí)時(shí)特效,美白塑形長(zhǎng)腿,都能實(shí)時(shí)完成。最終還有完成換臉。
去年熱門的“語(yǔ)義分割”技術(shù)讓實(shí)時(shí)彈幕不再擋住主播的臉。
或許你也會(huì)問(wèn),AI對(duì)視頻的變革,下一步會(huì)從何種維度展開(kāi)?
CVPR上的眾多新研究,“異口同聲”的主題應(yīng)該可以給你答案:這就是“行為預(yù)測(cè)”方向。
其中最典型的的是,今年上半年李飛飛團(tuán)隊(duì)發(fā)表的一篇論文,當(dāng)時(shí)引起不小的轟動(dòng)。
光流法可以作為行為預(yù)測(cè)的一種方法。
而在不久前結(jié)束的CVPR上,中國(guó)互聯(lián)網(wǎng)公司虎牙,也是在這一領(lǐng)域提交了新論文《SelFlow: Self-Supervised Learning of Optical Flow》,在光流法的問(wèn)題上取得了開(kāi)創(chuàng)性的突破。
虎牙這篇論文從CVPR 2019接收的1294篇論文中脫穎而出,入選了今年的最佳論文決賽(Best Paper Finalists)。
虎牙這項(xiàng)研究在為何能在受到CVPR論文評(píng)審們的青睞?
首先要從光流說(shuō)起。
光流
什么是光流(Optical Flow)?所謂光流是空間運(yùn)動(dòng)物體在觀察成像平面上的像素運(yùn)動(dòng)的瞬時(shí)速度。
根據(jù)物體在相鄰兩幀上的位置的變化可以計(jì)算光流。
通俗地說(shuō),光流場(chǎng)反映了圖像里每個(gè)像素點(diǎn)的運(yùn)動(dòng)趨勢(shì),可以看做是各個(gè)像素點(diǎn)的運(yùn)動(dòng)矢量場(chǎng),它包含了圖像中物體運(yùn)動(dòng)速度的大小和方向。
光流在物體軌跡跟蹤、3D重建、自動(dòng)駕駛等場(chǎng)景中都有著廣泛的應(yīng)用。
光流法是利用圖像序列中像素在時(shí)間域上的變化以及相鄰幀之間的相關(guān)性來(lái)找到上一幀跟當(dāng)前幀之間存在的對(duì)應(yīng)關(guān)系,從而計(jì)算出相鄰幀之間物體的運(yùn)動(dòng)信息的一種方法。
可以說(shuō),光流包含著運(yùn)動(dòng)圖像中最基本的信息。而往往越是基礎(chǔ)的研究越是有著廣泛的應(yīng)用。
廣泛的應(yīng)用場(chǎng)景
光流這個(gè)上世紀(jì)40年代提出的概念,目前在在圖像視頻處理、計(jì)算機(jī)視覺(jué)的許多問(wèn)題上都發(fā)揮著重要的作用。
光流的應(yīng)用包括不僅能推斷的物體的運(yùn)動(dòng)狀態(tài),還能預(yù)測(cè)物體的結(jié)構(gòu)和場(chǎng)景環(huán)境等。因此,光流法可以用于自動(dòng)駕駛、軌跡跟蹤、3D結(jié)構(gòu)重建、運(yùn)動(dòng)檢測(cè)、圖像分割等方面。
另外,光流的概念最早是由一位心理學(xué)家提出,它是人類對(duì)運(yùn)動(dòng)和環(huán)境結(jié)構(gòu)認(rèn)知的心理過(guò)程,是人類視覺(jué)的關(guān)鍵組成部分。因此研究光流可以學(xué)習(xí)如何將人類的能力轉(zhuǎn)換為計(jì)算機(jī)視覺(jué)能力,這在機(jī)器視覺(jué)領(lǐng)域同樣至關(guān)重要。
掌握了計(jì)算機(jī)視覺(jué)基礎(chǔ)的“魔法”,就能在AI產(chǎn)品落地中玩出更多花樣,在直播中加入更多的AI。
比如用光流預(yù)測(cè)直播畫面中人物的行為,在某些有害的信息出現(xiàn)前就及時(shí)做出預(yù)防;用3D結(jié)構(gòu)重建實(shí)現(xiàn)更低成本的VR直播,等等。
業(yè)界領(lǐng)先
既然光流的用處這么大,于是來(lái)自虎牙的AI研究團(tuán)隊(duì)提出了一個(gè)大膽的想法:用卷積神經(jīng)網(wǎng)絡(luò)(CNN)預(yù)測(cè)被遮擋像素的光流。
來(lái)自虎牙的AI研究員、也是這篇論文的第一作者劉鵬鵬說(shuō):這是光流研究歷史上第一次不使用額外仿真數(shù)據(jù)達(dá)到的最高準(zhǔn)確度。而且實(shí)驗(yàn)結(jié)果提交了半年以上,仍然在Sintel測(cè)試數(shù)據(jù)集上排名第一,至今未被打破。
本屆CVPR的論文提交數(shù)量為5265篇有效投稿,比去年增加56%,但接收率為卻比去年下降了3.9%,入選難度逐年上升。
計(jì)算機(jī)視覺(jué)近年來(lái)的大熱,讓基礎(chǔ)型研究在一眾論文中顯得尤為難能可貴。這篇文章能夠入選CVPR 2019最佳論文決賽也凸現(xiàn)了虎牙在AI基礎(chǔ)領(lǐng)域研究的能力。
原理簡(jiǎn)介
雖然CNN在圖像分類、目標(biāo)識(shí)別等問(wèn)題上取得了巨大成功,用它來(lái)預(yù)測(cè)圖像的光流可以實(shí)時(shí)運(yùn)行并且具有高性能,但是它也存在著諸多問(wèn)題。
首先,如果使用監(jiān)督學(xué)習(xí)的方法,那么CNN需要大量的標(biāo)記數(shù)據(jù),而包含光流的圖像數(shù)據(jù)很難獲得,最后不得不依賴仿真數(shù)據(jù)。
其次,如果使用無(wú)監(jiān)督學(xué)習(xí)的方法,那么被遮擋像素的預(yù)測(cè)結(jié)果往往不佳,和不被遮擋的像素存在著較大的性能差距。
這是由于當(dāng)前無(wú)監(jiān)督的學(xué)習(xí)方法基本都是基于亮度一致性假設(shè),通過(guò)image warping的方式,基于估計(jì)的光流warp第二張圖片來(lái)重構(gòu)第一張圖片,然后比較第一張圖片跟warp后的第二張圖片的亮度差異。
這種方法可以比較準(zhǔn)確地估計(jì)沒(méi)有被遮擋像素的光流,但是對(duì)于被遮擋像素的光流估計(jì)卻無(wú)能為力,因此對(duì)于被遮擋的像素,亮度不變假設(shè)不再成立。
如何在不使用任何標(biāo)注數(shù)據(jù)的情況下預(yù)測(cè)被遮擋像素的光流呢?
虎牙提出了一種自監(jiān)督學(xué)習(xí)方法從無(wú)標(biāo)記的數(shù)據(jù)中學(xué)習(xí)光流。這種方法從無(wú)遮擋像素中提取可靠的光流估計(jì),并使用這些預(yù)測(cè)來(lái)學(xué)習(xí)被遮擋像素的光流。
然后,研究人員用人為制造遮擋的方法造出新的被遮擋像素?cái)?shù)據(jù),利用之前已經(jīng)學(xué)習(xí)到的沒(méi)有被遮擋像素的光流作為監(jiān)督數(shù)據(jù),去指導(dǎo)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)被遮擋像素的光流。
這種自監(jiān)督學(xué)習(xí)框架在MPI Sintel,KITTI 2012和KITTI 2015數(shù)據(jù)集上取得了最優(yōu)的無(wú)監(jiān)督效果。
更重要的是,這種無(wú)監(jiān)督學(xué)習(xí)方法得到的模型為有監(jiān)督學(xué)習(xí)提供了很好的初始化,消除了對(duì)仿真數(shù)據(jù)的依賴,經(jīng)過(guò)有監(jiān)督微調(diào),在多個(gè)數(shù)據(jù)集上取得了最優(yōu)性能。
展望
光流法在計(jì)算機(jī)視覺(jué)領(lǐng)域的有著非?;A(chǔ)的應(yīng)用?;⒀肋@次發(fā)表的基礎(chǔ)研究問(wèn)題,解決了光流法在過(guò)去應(yīng)用中的一些根本難題,實(shí)驗(yàn)結(jié)果達(dá)到了目前業(yè)界最先進(jìn)的水平,乃至在半年多的時(shí)間里沒(méi)有對(duì)手能超越。
虎牙的這項(xiàng)研究未來(lái)不僅對(duì)直播行業(yè)的產(chǎn)生重大影響,提高網(wǎng)絡(luò)直播的AI含金量,還能在自動(dòng)駕駛等熱門AI領(lǐng)域發(fā)揮重要作用。
虎牙今后是不是會(huì)用手中的AI技術(shù)去參與更多的跨界行動(dòng)?我們不敢妄加猜測(cè),但至少虎牙已經(jīng)在CVPR中讓我們刮目相看了。
- 腦機(jī)接口走向現(xiàn)實(shí),11張PPT看懂中國(guó)腦機(jī)接口產(chǎn)業(yè)現(xiàn)狀|量子位智庫(kù)2021-08-10
- 張朝陽(yáng)開(kāi)課手推E=mc2,李永樂(lè)現(xiàn)場(chǎng)狂做筆記2022-03-11
- 阿里數(shù)學(xué)競(jìng)賽可以報(bào)名了!獎(jiǎng)金增加到400萬(wàn)元,題目面向大眾公開(kāi)征集2022-03-14
- 英偉達(dá)遭黑客最后通牒:今天必須開(kāi)源GPU驅(qū)動(dòng),否則公布1TB機(jī)密數(shù)據(jù)2022-03-05