快手版Sora「可靈」開放測試:生成超120s視頻,更懂物理,復(fù)雜運動也能精準(zhǔn)建模
已在快影APP開啟邀測
克雷西 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
什么?瘋狂動物城被國產(chǎn)AI搬進(jìn)現(xiàn)實了?
與視頻一同曝光的,是一款名為「可靈」全新國產(chǎn)視頻生成大模型。
它采用了Sora相似的技術(shù)路線,結(jié)合多項自研技術(shù)創(chuàng)新,生成的視頻不僅運動幅度大且合理,還能模擬物理世界特性,具備強(qiáng)大的概念組合能力和想象力。
數(shù)據(jù)上看,可靈支持生成長達(dá)2分鐘的30fps的超長視頻,分辨率高達(dá)1080p,且支持多種寬高比。
另外再劃個重點,可靈不是實驗室放出的Demo或者視頻結(jié)果演示,而是短視頻領(lǐng)域頭部玩家快手推出的產(chǎn)品級應(yīng)用。
而且主打一個務(wù)實,不開空頭支票、發(fā)布即上線,可靈大模型已在快影APP中正式開啟邀測。
話不多說,接下來就帶大家欣賞一下可靈的大作~
更懂世界規(guī)律,復(fù)雜運動也能準(zhǔn)確刻畫
相信通過開頭的視頻,大家已經(jīng)感受到了可靈豐富的想象力。
可靈不但在想象上天馬行空,在描繪運動時又能做到符合真實的運動規(guī)律,復(fù)雜、大幅度的時空運動也能準(zhǔn)確刻畫。
比如這個在公路上高速奔跑的老虎,不僅畫面連貫,隨鏡頭角度的變化合理,老虎四肢的動作協(xié)調(diào),而且還把奔跑過程中軀干部分的抖動也展現(xiàn)得淋漓盡致。

還有宇航員在月球上奔跑的畫面,動作流暢,步態(tài)和影子的運動合理恰當(dāng),太絕了。

除了運動,可靈大模型還能模擬真實物理世界特性,生成的視頻更符合物理規(guī)律。
在這段倒牛奶的視頻中,力學(xué)方面的重力規(guī)律、液面的上升都符合現(xiàn)實,連倒液體時泡沫一直在最上層的特性也考慮到了:

還有光學(xué)上的反射規(guī)律也考慮到了,注意看這只彈鋼琴的貓貓,光滑表面上影子里的貓爪和琴鍵,都在隨著本體同步變化。

另外,與真實物理世界的交互,也能被真實反映——下面視頻中小男孩吃漢堡的生成視頻中,一口咬下去,齒印一直都在,小男孩享受吃漢堡的享受過程宛如就在眼前。

要知道,符合物理規(guī)律對于大模型來說還是相當(dāng)困難的事,連Sora也不能完全做好。
比如同樣是吃漢堡這個場景,Sora生成的視頻不僅有人手只有三根手指這樣的槽點,咬合位置與漢堡上的咬痕也并不匹配……

不僅僅是真實世界中的物理規(guī)律和運動,對于想象力的場景,可靈也是信手拈來。
比如這只戴著眼鏡的兔子邊喝咖啡,邊看報紙,悠閑自得。

同時,可靈對細(xì)節(jié)的刻畫也很到位,比如兩朵緩慢綻放的花,可以看到花瓣和花蕊的細(xì)節(jié)。

而且,可靈不僅生成的視頻更加真實,生成的視頻分辨率高達(dá)1080p,時長高達(dá)2分鐘(幀率30fps),且支持自由的寬高比。
其中也包括豎版視頻,可以說是和快手的短視頻生態(tài)相當(dāng)匹配了。
畫面中,一列火車向前方行駛,窗外的風(fēng)景走過了春夏秋冬四季,整個兩分多鐘的畫面都十分連貫。
到這里,相信效果展示得已經(jīng)夠多了,如果還意猶未盡的話,可以前往可靈官網(wǎng)平臺(傳送門見文末),看更多神奇的AI視頻吧!
(注:本文中的視頻有壓縮,高清及最新效果以官方網(wǎng)頁為準(zhǔn))
那么在可靈的這些視頻背后,都運用了哪些獨特的技術(shù)呢?
原生的視頻生成技術(shù)路線
整體上,可靈大模型的采用了原生的文生視頻技術(shù)路線,替代了圖像生成+時序模塊的組合,這也是可靈生成時間長、幀率高,能準(zhǔn)確處理復(fù)雜運動的核心奧義。
具體來看,快手大模型團(tuán)隊認(rèn)為,一個優(yōu)秀的視頻生成模型,需要考慮四大核心要素——模型設(shè)計、數(shù)據(jù)保障、計算效率,以及模型能力的擴(kuò)展。
類Sora模型架構(gòu),scaling law得到驗證
先從模型的設(shè)計說起,這當(dāng)中主要應(yīng)當(dāng)考慮兩方面的因素,一是足夠強(qiáng)的擬合能力,二是足夠多的參數(shù)容量。
架構(gòu)的選擇方面,可靈整體框架采用了類Sora的DiT結(jié)構(gòu),用Transformer代替了傳統(tǒng)擴(kuò)散模型中基于卷積網(wǎng)絡(luò)的U-Net。
Transformer的處理能力和生成能力更強(qiáng)大,擴(kuò)展能力更強(qiáng)、收斂效率更好,解決了U-Net在處理復(fù)雜任務(wù)時冗余過大、感受野和定位精度不可兼得的局限。
在此基礎(chǔ)之上,快手大模型團(tuán)隊還對模型中的隱空間編/解碼、時序建模等模塊進(jìn)行了升維。
目前,在隱空間編/解碼上,主流的視頻生成模型通常沿用Stable Diffusion的2D VAE進(jìn)行空間壓縮,但這對于視頻而言存在明顯的信息冗余。
因此,快手大模型團(tuán)隊自研了3D VAE網(wǎng)絡(luò),實現(xiàn)時空同步壓縮,獲得了較高的重建質(zhì)量,在訓(xùn)練性能和效果取得了最佳平衡。
另外在時序信息建模上,快手大模型團(tuán)隊設(shè)計了一款計算高效的全注意力機(jī)制(3D Attention)作為時空建模模塊。
該方法可以更準(zhǔn)確地建模復(fù)雜時空運動,同時還能兼顧具運算成本,有效提升了模型的建模能力。
當(dāng)然,除了模型自身的能力,用戶輸入的文本提示詞也對最終生成的效果有著重要影響。
為此,團(tuán)隊專門設(shè)計了專用的語言模型,可以對用戶輸入的提示詞進(jìn)行高質(zhì)量擴(kuò)充及優(yōu)化。
數(shù)據(jù)如何構(gòu)建?自建高質(zhì)量數(shù)據(jù)篩選方案
說完了模型的設(shè)計,數(shù)據(jù)對于模型的表現(xiàn)同樣至關(guān)重要。
事實上,訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量不足,也正是許多視頻生成模型研發(fā)者所面臨的棘手問題。
網(wǎng)上視頻普遍質(zhì)量低、難以滿足訓(xùn)練需求??焓执竽P蛨F(tuán)隊構(gòu)建了較為完備的標(biāo)簽體系,可以精細(xì)化的篩選訓(xùn)練數(shù)據(jù),或?qū)τ?xùn)練數(shù)據(jù)的分布進(jìn)行調(diào)整。
該體系從視頻基礎(chǔ)質(zhì)量、美學(xué)、自然度等多個維度對視頻數(shù)據(jù)質(zhì)量進(jìn)行刻畫,并針對每一個維度設(shè)計多種定制化的標(biāo)簽特征。
在訓(xùn)練視頻生成模型時,需要同時把視頻及對應(yīng)文本描述喂給模型。視頻本身質(zhì)量也有了保證,其對應(yīng)文本描述,應(yīng)該如何獲得?
開發(fā)團(tuán)隊專門研發(fā)了視頻描述模型,可以生成精確、詳盡、結(jié)構(gòu)化的視頻描述。顯著提升視頻生成模型的文本指令響應(yīng)能力。
縱使模型天賦異稟,亦離不開勤學(xué)苦練
模型和數(shù)據(jù)都有了,運算效率也要跟得上,如此才能在有限的時間內(nèi)完成海量規(guī)模數(shù)據(jù)訓(xùn)練,看到顯著的效果。
為了獲得更高的運算效率,可靈大模型并沒有采用當(dāng)前行業(yè)主流的DDPM方案,而是使用了傳輸路徑更短的flow模型作為擴(kuò)散模型基座。
從另一層面上看,算力的不足也是不少AI從業(yè)者面臨的難題,即使像OpenAI這樣的大模型巨頭,所擁有的算力資源同樣緊缺。
這一問題在短時間內(nèi)可能無法徹底解決,但可以做的是,在總體硬件資源有限的條件下,盡可能地提高算力的運用效率。
快手大模型團(tuán)隊便使用了分布式訓(xùn)練集群,并通過算子優(yōu)化、重算策略優(yōu)化等手段,大幅提升了可靈大模型的硬件利用率。
在訓(xùn)練過程當(dāng)中,可靈也沒有選擇一步到位,而是采取分階段訓(xùn)練策略來逐步提升分辨率:
在初期的低分辨率階段,主要是以數(shù)量取勝,通過大量數(shù)據(jù)增強(qiáng)模型對概念多樣性的理解和建模能力;
在隨后的高分辨率階段,數(shù)據(jù)的質(zhì)量開始變成更重要的考量因素,目的是進(jìn)一步提高模型性能,并加強(qiáng)在細(xì)節(jié)上的表現(xiàn)。
采取這樣的策略,有效結(jié)合了量與質(zhì)的優(yōu)勢,確保了模型在訓(xùn)練的各個階段均能得到優(yōu)化提升。
需求千變?nèi)f化,模型游刃有余
在基礎(chǔ)模型的研發(fā)工作之上,快手大模型團(tuán)隊也從長寬比等多個維度上對其能力進(jìn)行了擴(kuò)展。
在長寬比上,可靈同樣沒有采用主流模型在固定分辨率上進(jìn)行訓(xùn)練的方式。
因為傳統(tǒng)方法在面對長寬比多變的真實數(shù)據(jù)時,通常會引入前處理邏輯,破壞了原始數(shù)據(jù)的構(gòu)圖,導(dǎo)致生成結(jié)果構(gòu)圖較差。
相比之下,快手大模型團(tuán)隊的方案可以使模型直接處理不同長寬比的數(shù)據(jù),保留原始數(shù)據(jù)的構(gòu)圖。
為了應(yīng)對未來數(shù)分鐘甚至更長的視頻生成需求,團(tuán)隊也研發(fā)了基于自回歸的視頻時序拓展方案,且不會出現(xiàn)明顯的效果退化。
除了文本輸入外,可靈還支持多種控制信息輸入,如相機(jī)運鏡、幀率、邊緣/關(guān)鍵點/深度等,為用戶提供了豐富的內(nèi)容控制能力。
不做“畫餅”大模型,應(yīng)用才是硬道理
大模型行業(yè)“卷”到今天,我們見證了太多技術(shù)的高光時刻,但技術(shù)突破的初心仍然還是應(yīng)用。
快手可靈視頻生成模型,誕生于短視頻頭部廠商,也持續(xù)面向應(yīng)用在探索。非常值得一提的是,可靈大模型是發(fā)布即上線,不畫餅!不畫餅!不畫餅!
可靈的文生視頻模型,已在快影APP中正式開啟邀測,目前開放的版本支持720P視頻生成,豎版視頻生成能力也即將開放。

除了文生視頻,快手還基于可靈大模型推出了其他應(yīng)用,如“AI舞王”已在快手和快影APP中上線。
無論是科目三還是二人轉(zhuǎn),只要上傳一張全身照,都能分分鐘讓人物跟著音樂優(yōu)雅地跳動,甚至兵馬俑也能跳起最炫民族風(fēng)。
除了視頻生成模塊,快手大模型團(tuán)隊還向其中加入了自研3D人臉重建技術(shù),以及背景穩(wěn)定性和重定向模塊,更生動地展現(xiàn)表情和運動效果。
而且,更新一些的“AI唱跳”技術(shù)也迎來了首發(fā),在跳舞的同時,也能讓人物張嘴唱歌了。
順便再做個劇透,基于可靈大模型的圖生視頻功能,也將于近期與用戶見面。
實際上,作為頭部視頻廠商,快手在大模型熱潮之中也動作迅速,此前就曾相繼推出語言模型和文生圖模型。
基于這些模型,AI文案、AI生圖,AI生視頻,以及更多AI創(chuàng)作功能,都已相繼在快手和快影APP中上線。
在視頻生成上,快手也曾與多個高?;蚩蒲袡C(jī)構(gòu)聯(lián)手,陸續(xù)發(fā)布可控運動的視頻生成算法Direct-a-Video、多模態(tài)生成算法Video-LaVIT、圖生視頻算法I2V-Adapter、多模態(tài)美學(xué)評價模型UNIAA等關(guān)鍵技術(shù),為可靈大模型積累了深厚的技術(shù)沉淀。
現(xiàn)在,快手完整的文生視頻功能終于華麗登場,我們期待快手作為一家擁有獨特場景優(yōu)勢和廣泛應(yīng)用場景的短視頻賽道巨頭,能夠率先把視頻生成能力在短視頻場景中落地生花。
如果你對AI視頻創(chuàng)作感興趣,不妨到快影APP中一探究竟。
傳送門:
http://kling.kuaishou.com/