真·拿嘴做視頻!Meta「AI導(dǎo)演」一句話搞定視頻素材,網(wǎng)友:我已跟不上AI發(fā)展速度
魚羊 Alex 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
畫家執(zhí)筆在畫布上戳戳點點,形成手繪作品獨有的筆觸。
你以為這是哪部紀(jì)錄片的畫面?
No,No,No!
視頻里的每一幀,都是AI生成的。
還是你告訴它,來段“畫筆在畫布上的特寫”,它就能直接整出畫面的那種。
不僅能無中生畫筆,按著馬頭喝水也不是不可以。
同樣是一句“馬兒喝水”,這只AI就拋出了這樣的畫面:
好家伙,這是以后拍視頻真能全靠一張嘴的節(jié)奏啊……
不錯,那廂一句話讓AI畫畫的Text to Image正搞得風(fēng)生水起,這廂Meta AI的研究人員又雙叒給生成AI來了個超進(jìn)化。
這回是真能“用嘴做視頻”了:
AI名為Make-A-Video,直接從DALL·E、Stable Diffusion搞火的靜態(tài)生成飛升動態(tài)。
給它幾個單詞或幾行文字,就能生成這個世界上其實并不存在的視頻畫面,掌握的風(fēng)格還很多元。
不僅紀(jì)錄片風(fēng)格能hold住,整點科幻效果也沒啥問題。
兩種風(fēng)格混合一下,機(jī)器人在時代廣場蹦迪的畫面好像也沒啥違和感。
文藝小清新的動畫風(fēng)格,看樣子Make-A-Video也把握住了。
這么一波操作下來,那真是把不少網(wǎng)友都看懵了,連評論都簡化到了三個字母:
而大佬LeCun則意味深長地表示:該來的總是會來的。
畢竟一句話生成視頻這事兒,之前就有不少業(yè)內(nèi)人士覺得“快了快了”。只不過Meta這一手,確實有點神速:
比我想象中快了9個月。
甚至還有人表示:我已經(jīng)有點適應(yīng)不了AI的進(jìn)化速度了……
文本圖像生成模型超進(jìn)化版
你可能會覺得Make-A-Video是個視頻版的DALL·E。
實際上,差不多就是這么回事兒(手動狗頭)。
前面提到,Make-A-Video是文本圖像生成(T2I)模型的超進(jìn)化,那是因為這個AI工作的第一步,其實還是依靠文本生成圖像。
從數(shù)據(jù)的角度來說,就是DALL·E等靜態(tài)圖像生成模型的訓(xùn)練數(shù)據(jù),是成對的文本-圖像數(shù)據(jù)。
而Make-A-Video雖然最終生成的是視頻,但并沒有專門用成對的文本-視頻數(shù)據(jù)訓(xùn)練,而是依然靠文本-圖像對數(shù)據(jù),來讓AI學(xué)會根據(jù)文字復(fù)現(xiàn)畫面。
視頻數(shù)據(jù)當(dāng)然也有涉及,但主要是使用單獨的視頻片段來教給AI真實世界的運動方式。
具體到模型架構(gòu)上,Make-A-Video主要由三部分組成:
- 文本圖像生成模型P
- 時空卷積層和注意力層
- 用于提高幀率的幀插值網(wǎng)絡(luò)和兩個用來提升畫質(zhì)的超分網(wǎng)絡(luò)
整個模型的工作過程是醬嬸的:
首先,根據(jù)輸入文本生成圖像嵌入。
然后,解碼器Dt生成16幀64×64的RGB圖像。
插值網(wǎng)絡(luò)↑F會對初步結(jié)果進(jìn)行插值,以達(dá)到理想幀率。
接著,第一重超分網(wǎng)絡(luò)會將畫面的分辨率提高到256×256。第二重超分網(wǎng)絡(luò)則繼續(xù)優(yōu)化,將畫質(zhì)進(jìn)一步提升至768×768。
基于這樣的原理,Make-A-Video不僅能根據(jù)文字生成視頻,還具備了以下幾種能力。
將靜態(tài)圖像轉(zhuǎn)成視頻:
根據(jù)前后兩張圖片生成一段視頻:
根據(jù)原視頻生成新視頻:
刷新文本視頻生成模型SOTA
其實,Meta的Make-A-Video并不是文本生成視頻(T2V)的首次嘗試。
比如,清華大學(xué)和智源在今年早些時候就推出了他們自研的“一句話生成視頻”AI:CogVideo,而且這是目前唯一一個開源的T2V模型。
更早之前,GODIVA和微軟的“女媧”也都實現(xiàn)過根據(jù)文字描述生成視頻。
不過這一次,Make-A-Video在生成質(zhì)量上有明顯的提升。
在MSR-VTT數(shù)據(jù)集上的實驗結(jié)果顯示,在FID(13.17)和CLIPSIM(0.3049)兩項指標(biāo)上,Make-A-Video都大幅刷新了SOTA。
此外,Meta AI的團(tuán)隊還使用了Imagen的DrawBench,進(jìn)行人為主觀評估。
他們邀請測試者親身體驗Make-A-Video,主觀評估視頻與文本之間的邏輯對應(yīng)關(guān)系。
結(jié)果顯示,Make-A-Video在質(zhì)量和忠實度上都優(yōu)于其他兩種方法。
One More Thing
有意思的是,Meta發(fā)布新AI的同時,似乎也拉開了T2V模型競速的序幕。
Stable Diffusion的母公司StabilityAI就坐不住了,創(chuàng)始人兼CEO Emad放話道:
我們將發(fā)布一個比Make-A-Video更好的模型,大家都能用的那種!
而就在前幾天,ICLR網(wǎng)站上也出現(xiàn)了一篇相關(guān)論文Phenaki。
生成效果是這樣的:
對了,雖然Make-A-Video尚未公開,但Meta AI官方也表示,準(zhǔn)備推出一個Demo讓大家可以實際上手體驗,感興趣的小伙伴可以蹲一波了~
論文地址:
https://makeavideo.studio/Make-A-Video.pdf
參考鏈接:
[1]https://ai.facebook.com/blog/generative-ai-text-to-video/
[2]https://twitter.com/boztank/status/1575541759009964032
[3]https://twitter.com/ylecun/status/1575497338252304384
[4]https://www.theverge.com/2022/9/29/23378210/meta-text-to-video-ai-generation-make-a-video-model-dall-e
[5]https://phenaki.video