你在網(wǎng)上看到的0失誤游戲視頻,可以是用AI生成的丨Demo在線可玩
視頻剪輯的福音
蕭簫 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
如今,能像打游戲一樣,控制真人網(wǎng)球運(yùn)動員的每一個動作,“贏得”比賽:
甚至能一幀幀控制,制作一個0失誤的彈球游戲視頻:
還可以像夾娃娃機(jī)一樣,想讓視頻中的機(jī)器人夾爪往哪動,它就往哪動:
制作各種視頻,現(xiàn)在就像是打游戲一樣簡單,效果還非常逼真。
果然,這又是AI的“功勞”。
“可玩”視頻生成器
只需要敲幾下鍵盤,就能控制視頻中某個目標(biāo)的方法,叫做“可玩視頻生成器”?(playable video generation)。
也就是說,不需要視頻剪輯技巧,只需要用幾個鍵來指示動作標(biāo)簽,用戶就能像“打游戲”一樣,控制目標(biāo)的每一幀動作,制作出視頻來,效果絲滑流暢。
不過,與游戲不同的是,這種方法甚至可以通過AI預(yù)測動作,來控制真實視頻中的目標(biāo)。
這是怎么做到的?
作者們利用自監(jiān)督的方法,讓模型學(xué)習(xí)了大量無標(biāo)簽視頻。
也就是說,給出一組無標(biāo)簽視頻,讓模型學(xué)習(xí)出一組離散的動作,和一個能通過這些動作、生成視頻的模型。
為此,作者設(shè)計了一種encoder-decoder結(jié)構(gòu)CADDY,其中預(yù)測的動作標(biāo)簽則起到瓶頸層(bottleneck)的作用。
這些可播放視頻生成結(jié)構(gòu),由若干組件組成,其中編碼器E,從輸入視頻序列中,提取幀特征。
而時序模型,則采用遞歸神經(jīng)網(wǎng)絡(luò)R、和用來預(yù)測輸入動作標(biāo)簽的網(wǎng)絡(luò)A,用于估計目標(biāo)連續(xù)的動作狀態(tài)。
最后,用解碼器D,來重構(gòu)輸入幀,就能生成可控制的視頻模型了。
訓(xùn)練數(shù)據(jù)集&操作方法
當(dāng)然,想要讓模型達(dá)到開頭那樣的效果,還需要對應(yīng)的視頻數(shù)據(jù)集。
作者們用了3個數(shù)據(jù)集來訓(xùn)練,分別是RoboNet、Atari Breakout和Tennis。
RoboNet數(shù)據(jù)集,是伯克利人工智能研究所(BAIR)做的一個機(jī)械臂數(shù)據(jù)集,共有1500萬個視頻幀。
這個數(shù)據(jù)集,包含各種機(jī)器人的攝像記錄、機(jī)械臂姿勢、力傳感器讀數(shù)和夾爪狀態(tài)。
而Atari Breakout,則是一個彈球游戲,這是一個非常簡單的2D像素游戲,玩家通過控制平板左右移動,讓彈球準(zhǔn)確地彈掉天花板上的磚塊,以此得分。
這一游戲,已經(jīng)專門為AI設(shè)立了一個排行榜,目前得分最高的仍然是谷歌DeepMind的MuZero。
而能控制模型一幀幀生成游戲視頻的CADDY模型,也是通過這個游戲訓(xùn)練出來的。
也就是說,只要玩得夠慢,絕對能“0失誤”做出“完美彈球游戲視頻”來。(細(xì)思極恐)
△假裝是自己玩的
至于網(wǎng)球數(shù)據(jù)集,作者們是在油管下載的(還需要安裝youtube-dl),通過油管上的網(wǎng)球視頻,做出真人可控的錄像來。
說不定,將來還能操作自己喜歡的網(wǎng)球巨星,來與好友進(jìn)行一場世界級的“實戰(zhàn)”博弈。
此外,既可以通過項目地址來下載上述的三個模型,也可以自己準(zhǔn)備想用的視頻數(shù)據(jù)集(要求MP4格式),來訓(xùn)練出目標(biāo)可控的視頻。
具體到模型運(yùn)行上,作者們推薦用Linux系統(tǒng)來運(yùn)行模型,訓(xùn)練的話,最好自帶1個或以上兼容CUDA的GPU。
此外,模型提供Conda環(huán)境和Dockerfile,用于配置所需要的庫。
準(zhǔn)備好后,就能進(jìn)行模型訓(xùn)練和評估了。
在線Demo可玩
目前,這一模型的“彈球游戲”版在線Demo已出,玩家可以通過控制左、右、或保持,這三種動作,來讓彈球準(zhǔn)確地?fù)舸虻狡桨迳稀?/p>
如果你是手殘黨,用這個demo制作出來的視頻,絕對能讓你體會到游戲0失誤的快樂。
文末附demo鏈接,趕緊上手試試吧~
作者介紹
這個“可玩視頻生成器”的一作Willi Menapace,是來自特倫托大學(xué)的博士生,主修深度學(xué)習(xí)和計算機(jī)視覺應(yīng)用,尤其對圖像和視頻生成方向的研究特別感興趣。
二作Stephane Lathuili′ere,是巴黎理工學(xué)院的助理教授,主要的研究方向是強(qiáng)化學(xué)習(xí)、和深度學(xué)習(xí)中的回歸問題,包括圖像和視頻生成。
共同二作Sergey Tulyakov,來自Snap的首席科學(xué)家,主要研究方向包括機(jī)器學(xué)習(xí)中的風(fēng)格轉(zhuǎn)換、逼真對象操作和動畫、視頻合成、預(yù)測和重新定位等。
Aliaksandr Siarohin和Elisa Ricci,分別是來自特倫托大學(xué)的博士生和助理教授,主要研究方向包括計算機(jī)視覺、機(jī)器人和機(jī)器學(xué)習(xí)等。
項目地址:
https://willi-menapace.github.io/playable-video-generation-website/
在線demo:
https://willi-menapace.github.io/playable-video-generation-website/play.html