這個(gè)“1句話生成視頻”AI爆火:支持中文輸入,分辨率達(dá)到480×480,清華&智源出品
動(dòng)圖表情包生成神器
蕭簫 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
一周不到,AI畫師又“進(jìn)階”了,還是一個(gè)大跨步——
直接1句話生成視頻的那種。
輸入“一個(gè)下午在海灘上奔跑的女人”,立刻就蹦出一個(gè)4秒32幀的小片段:
又或是輸入“一顆燃燒的心”,就能看見(jiàn)一只被火焰包裹的心:
這個(gè)最新的文本-視頻生成AI,是清華&智源研究院出品的模型CogVideo。
Demo剛放到網(wǎng)上就火了起來(lái),有網(wǎng)友已經(jīng)急著要論文了:
CogVideo“一脈相承”于文本-圖像生成模型CogView2,這個(gè)系列的AI模型只支持中文輸入,外國(guó)朋友們想玩還得借助谷歌翻譯:
看完視頻的網(wǎng)友直呼“這進(jìn)展也太快了,要知道文本-圖像生成模型DALL-E2和Imagen才剛出”
還有網(wǎng)友想象:照這個(gè)速度發(fā)展下去,馬上就能看到AI一句話生成VR頭顯里的3D視頻效果了:
所以,這只名叫CogVideo的AI模型究竟是什么來(lái)頭?
生成低幀視頻后再插幀
團(tuán)隊(duì)表示,CogVideo應(yīng)該是當(dāng)前最大的、也是首個(gè)開源的文本生成視頻模型。
在設(shè)計(jì)模型上,模型一共有90億參數(shù),基于預(yù)訓(xùn)練文本-圖像模型CogView2打造,一共分為兩個(gè)模塊。
第一部分先基于CogView2,通過(guò)文本生成幾幀圖像,這時(shí)候合成視頻的幀率還很低;
第二部分則會(huì)基于雙向注意力模型對(duì)生成的幾幀圖像進(jìn)行插幀,來(lái)生成幀率更高的完整視頻。
在訓(xùn)練上,CogVideo一共用了540萬(wàn)個(gè)文本-視頻對(duì)。
這里不僅僅是直接將文本和視頻匹配起來(lái)“塞”給AI,而是需要先將視頻拆分成幾個(gè)幀,并額外給每幀圖像添加一個(gè)幀標(biāo)記。
這樣就避免了AI看見(jiàn)一句話,直接給你生成幾張一模一樣的視頻幀。
其中,每個(gè)訓(xùn)練的視頻原本是160×160分辨率,被CogView2上采樣(放大圖像)至480×480分辨率,因此最后生成的也是480×480分辨率的視頻。
至于AI插幀的部分,設(shè)計(jì)的雙向通道注意力模塊則是為了讓AI理解前后幀的語(yǔ)義。
最后,生成的視頻就是比較絲滑的效果了,輸出的4秒視頻幀數(shù)在32張左右。
在人類評(píng)估中得分最高
這篇論文同時(shí)用數(shù)據(jù)測(cè)試和人類打分兩種方法,對(duì)模型進(jìn)行了評(píng)估。
研究人員首先將CogVideo在UCF-101和Kinetics-600兩個(gè)人類動(dòng)作視頻數(shù)據(jù)集上進(jìn)行了測(cè)試。
其中,F(xiàn)VD(Fréchet視頻距離)用于評(píng)估視頻整體生成的質(zhì)量,數(shù)值越低越好;IS(Inception score)主要從清晰度和生成多樣性兩方面來(lái)評(píng)估生成圖像質(zhì)量,數(shù)值越高越好。
整體來(lái)看,CogVideo生成的視頻質(zhì)量處于中等水平。
但從人類偏好度來(lái)看,CogVideo生成的視頻效果就比其他模型要高出不少,甚至在當(dāng)前最好的幾個(gè)生成模型之中,取得了最高的分?jǐn)?shù):
具體來(lái)說(shuō),研究人員會(huì)給志愿者一份打分表,讓他們根據(jù)視頻生成的效果,對(duì)幾個(gè)模型生成的視頻進(jìn)行隨機(jī)評(píng)估,最后判斷綜合得分:
CogVideo的共同一作洪文逸和丁銘,以及二作鄭問(wèn)迪,三作Xinghan Liu都來(lái)自清華大學(xué)計(jì)算機(jī)系。
此前,洪文逸、丁銘和鄭問(wèn)迪也是CogView的作者。
論文的指導(dǎo)老師唐杰,清華大學(xué)計(jì)算機(jī)系教授,智源研究院學(xué)術(shù)副院長(zhǎng),主要研究方向是AI、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和知識(shí)圖譜等。
對(duì)于CogVideo,有網(wǎng)友表示仍然有些地方值得探究,例如DALL-E2和Imagen都有一些不同尋常的提示詞來(lái)證明它們是從0生成的,但CogVideo的效果更像是從數(shù)據(jù)集中“拼湊”起來(lái)的:
例如,獅子直接“用手”喝水的視頻,就不太符合我們的常規(guī)認(rèn)知(雖然很搞笑):
(是不是有點(diǎn)像給鳥加上兩只手的魔性表情包)
但也有網(wǎng)友指出,這篇論文給語(yǔ)言模型提供了一些新思路:
用視頻訓(xùn)練可能會(huì)進(jìn)一步釋放語(yǔ)言模型的潛力。因?yàn)樗粌H有大量的數(shù)據(jù),還隱含了一些用文本比較難體現(xiàn)的常識(shí)和邏輯。
目前CogVideo的代碼還在施工中,感興趣的小伙伴可以去蹲一波了~
項(xiàng)目&論文地址:
https://github.com/THUDM/CogVideo
參考鏈接:
[1]https://twitter.com/ak92501/status/1531017163284393987
[2]https://news.ycombinator.com/item?id=31561845
[3]https://www.youtube.com/watch?v=P7JRvwfHFwo
[4]https://agc.platform.baai.ac.cn/CogView/index.html
[5]https://www.reddit.com/r/MediaSynthesis/comments/v0kqu8/cogvideo_largescale_pretraining_for_texttovideo/