2張圖片就能「算出」一段視頻,Reddit網(wǎng)友都驚呆了 | 曠視&北大出品
超越SOTA,速度還快30%
魚(yú)羊 蕭簫 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
只給AI兩張圖片,就能得到高幀率動(dòng)態(tài)視頻?
輸入的兩張圖像,重疊后是這樣的:
而算出來(lái)的視頻,是醬嬸的:
不錯(cuò),這又是視頻插幀算法的功勞。
極限操作玩得6,讓老電影變絲滑的常規(guī)手法,這個(gè)名叫RIFE的AI算法同樣信手拈來(lái)。
右邊這支經(jīng)典探戈,看上去是不是比左邊絲滑多了?
不僅是老電影,飛行表演的精彩瞬間,也能一口氣從每秒24幀提升到每秒96幀。
這項(xiàng)新研究,來(lái)自曠視和北大。不僅能讓老影像資料追上人民群眾對(duì)高幀率的需求,支持2X/4X/8X高質(zhì)量插值,它還有一個(gè)最大的特點(diǎn):快。
量子位在Colab上用T4跑了一遍Demo,一個(gè)時(shí)長(zhǎng)53秒的720p 25fps視頻,插值到100fps僅用了2分19秒。
該項(xiàng)目現(xiàn)已開(kāi)源,并且有官方Demo、第三方Windows應(yīng)用可以試玩。
看過(guò)了RIFE的表現(xiàn),網(wǎng)友們不由驚嘆,這是要超越那只經(jīng)常在各種修復(fù)視頻里出現(xiàn)的插幀AI DAIN,引領(lǐng)一波新潮流的節(jié)奏啊?
一時(shí)之間,RIFE在Reddit上的熱度飆升到了2.8k。
那么,這樣的效果究竟是怎么實(shí)現(xiàn)的呢?
從雙向估計(jì),到一步預(yù)測(cè)中間幀
視頻插幀,通常是用光流預(yù)測(cè)算法來(lái)預(yù)測(cè)中間幀,并插入兩幀之間。光流,就像光的流動(dòng)一樣,是一種通過(guò)顏色來(lái)表示圖像中目標(biāo)移動(dòng)方向的方式。
△稀疏光流與稠密光流
傳統(tǒng)光流預(yù)測(cè)算法,通常根據(jù)前后兩幀視頻來(lái)預(yù)測(cè)中間的某一幀長(zhǎng)啥樣。
將預(yù)測(cè)完成的圖像插進(jìn)去后,視頻看起來(lái)就會(huì)變得更絲滑。
以DAIN的算法為例,如果要預(yù)測(cè)t時(shí)刻的幀,就需要t時(shí)刻的前后兩幀視頻,通過(guò)光流預(yù)測(cè)算法來(lái)實(shí)現(xiàn)。
△DAIN的算法圖
但是這一類(lèi)的算法會(huì)產(chǎn)生一個(gè)缺點(diǎn):在預(yù)測(cè)過(guò)程中,如果用前后兩幀圖像產(chǎn)生雙向光流,用線(xiàn)性組合來(lái)估計(jì)中間流,預(yù)測(cè)出來(lái)的結(jié)果,在運(yùn)動(dòng)邊界區(qū)域就會(huì)出現(xiàn)偽影。
這樣的偽影,使得重建中間幀圖像的效果不盡人意。
那么,如果換一種思路,直接先預(yù)測(cè)中間流呢?
相比于利用前一幀和后一幀進(jìn)行兩次估計(jì),這里的IFNET?(a Specialized and Efficient Intermediate Flow Network)算法,將直接采用線(xiàn)性運(yùn)動(dòng)假設(shè),對(duì)中間幀進(jìn)行一次估計(jì)。
效果也顯而易見(jiàn),相比于利用前后兩幀的雙向估計(jì)所產(chǎn)生的光流,利用IFNET估計(jì)出的光流效果非常清晰,而且?guī)缀鯖](méi)有偽影。
利用這種方式重建圖像,不僅光流邊緣看得清楚,而且速度也更快。
論文提到,RIFE是首個(gè)基于光流的實(shí)時(shí)視頻插幀方案。
由于中間幀預(yù)測(cè),直接假設(shè)了前后兩幀的變換是線(xiàn)性的,相當(dāng)于每幀預(yù)測(cè)中直接少了一次估計(jì)。
那么,這個(gè)模型,究竟將插幀算法提升到了怎么樣的水平?
運(yùn)行速度遠(yuǎn)超其他方法
前文已經(jīng)提到,RIFE最亮眼的一點(diǎn)是快。
研究人員在UCF101、Vimeo90K、Middlebury OTHER set和HD benchmarks等基準(zhǔn)上,將RIFE與英偉達(dá)的SoftSplat、上交大的DAIN等「前輩」進(jìn)行了對(duì)比。
用來(lái)測(cè)試運(yùn)行時(shí)間的是一個(gè)640×480的視頻,使用的GPU型號(hào)是NVIDIA TITAN X(Pascal)。
從結(jié)果可以看出,在性能相當(dāng)?shù)那闆r下,RIFE基礎(chǔ)模型的運(yùn)行速度超過(guò)了所有對(duì)比方法。
而模型的大版本RIFE-Large,在性能超越SOTA方法SoftSplat的情況下,運(yùn)行速度快出了30%。
另外,研究人員基于Vimeo90K測(cè)試集,提供了可視化的對(duì)比結(jié)果。
可以看到綠框部分,SepConv-L1和DAIN產(chǎn)生了偽影,而CAIN鏟子部分則出現(xiàn)了缺失,相對(duì)而言,RIFE生成的結(jié)果更為可靠。
安裝包和colab都有,試玩無(wú)憂(yōu)
效果這么美麗的模型,應(yīng)該怎么使用?
目前作者們已經(jīng)給出了預(yù)訓(xùn)練模型的幾種用法,從GitHub項(xiàng)目中可以直接下載網(wǎng)盤(pán)版的壓縮包。
無(wú)論是用作者提供的demo、還是用你自己想要進(jìn)行插幀的樣本,都可以上手試玩。
當(dāng)然,模型也有colab版本,可以直接在云服務(wù)器上玩模型。
而且,已經(jīng)有玩家做出了Windows版的軟件,可以直接下載下來(lái)使用。界面看起來(lái)還挺簡(jiǎn)潔:
模型RIFE的出現(xiàn),已經(jīng)讓一些游戲愛(ài)好者狂熱了起來(lái):
你們能想象嗎,就算是已經(jīng)吃灰很久的PS2,也可以達(dá)到4k游戲的水平效果了!利用這種算法,3步就能搞定!
不過(guò),也有網(wǎng)友表示了對(duì)這種算法的擔(dān)憂(yōu)。
雖然這種算法速度快、性能高,但實(shí)際上存在一個(gè)問(wèn)題:
這種算法,本質(zhì)上無(wú)法聯(lián)想到丟失的幀間信息,所以無(wú)法用在安防視頻上。
對(duì)于這些方面的應(yīng)用,未來(lái)還需要進(jìn)一步考慮。
作者介紹
黃哲威,論文一作,目前是曠視的一名算法研究員,畢業(yè)于北京大學(xué)。
進(jìn)入北大信科一年后,他獲得了ICPC區(qū)域賽金牌,還成為了曠視科技智能計(jì)算組(IC組)的實(shí)習(xí)生,之后參加了NIPS 2017的Learning to Run比賽,使用Actor-Critic Ensemble算法獲得了第二名。此外,在ICCV 2019頂會(huì)上,他的論文同樣被收錄。
張?zhí)爝h(yuǎn),畢業(yè)于北京大學(xué),就讀期間,論文曾經(jīng)被ICML 2019、ICCV 2019、NIPS 2019等頂會(huì)收錄。
衡穩(wěn),于北京大學(xué)獲計(jì)算機(jī)應(yīng)用技術(shù)碩士學(xué)位。
施柏鑫,來(lái)自北京大學(xué),目前是北京大學(xué)信息科學(xué)技術(shù)學(xué)院的助理教授(博雅青年學(xué)者)、研究員、博士生導(dǎo)師。
周舒暢,曠視研究院AI計(jì)算組組長(zhǎng),本科畢業(yè)于清華電子系,博士畢業(yè)于中科院計(jì)算所,曾獲NeuIPS 2017 Learning to Run Challenge第二名,美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所NIST TRAIT 2016 OCR冠軍。
項(xiàng)目地址:
https://rife-vfi.github.io/
論文地址:
https://arxiv.org/abs/2011.06294
與DAIN效果對(duì)比:
https://www.youtube.com/watch?v=60DX2T3zyVo&feature=youtu.be
參考鏈接:
https://www.reddit.com/r/linux/comments/jy4jjl/opensourced_realtime_video_frame_interpolation/
https://www.reddit.com/r/MachineLearning/comments/jyvog1/d_better_than_dain_increase_videos_fps_with_rife/
http://hzwer.com/
http://tianyuanzhang.com/
https://eecs.pku.edu.cn/info/1339/9244.htm
https://www.linkedin.com/in/heng-wen-020321a0/