国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

快手版Sora「可靈」開放測試：生成超120s視頻，更懂物理，復(fù)雜運動也能精準(zhǔn)建模

克雷西 2024-06-06 16:25:46 來源：量子位

已在快影APP開啟邀測

克雷西發(fā)自凹非寺
量子位 | 公眾號 QbitAI

什么？瘋狂動物城被國產(chǎn)AI搬進(jìn)現(xiàn)實了？

與視頻一同曝光的，是一款名為「可靈」全新國產(chǎn)視頻生成大模型。

它采用了Sora相似的技術(shù)路線，結(jié)合多項自研技術(shù)創(chuàng)新，生成的視頻不僅運動幅度大且合理，還能模擬物理世界特性，具備強(qiáng)大的概念組合能力和想象力。

數(shù)據(jù)上看，可靈支持生成長達(dá)2分鐘的30fps的超長視頻，分辨率高達(dá)1080p，且支持多種寬高比。

【視頻請到公眾號中查看】

另外再劃個重點，可靈不是實驗室放出的Demo或者視頻結(jié)果演示，而是短視頻領(lǐng)域頭部玩家快手推出的產(chǎn)品級應(yīng)用。

而且主打一個務(wù)實，不開空頭支票、發(fā)布即上線，可靈大模型已在快影APP中正式開啟邀測。

話不多說，接下來就帶大家欣賞一下可靈的大作~

更懂世界規(guī)律，復(fù)雜運動也能準(zhǔn)確刻畫

相信通過開頭的視頻，大家已經(jīng)感受到了可靈豐富的想象力。

可靈不但在想象上天馬行空，在描繪運動時又能做到符合真實的運動規(guī)律，復(fù)雜、大幅度的時空運動也能準(zhǔn)確刻畫。

比如這個在公路上高速奔跑的老虎，不僅畫面連貫，隨鏡頭角度的變化合理，老虎四肢的動作協(xié)調(diào)，而且還把奔跑過程中軀干部分的抖動也展現(xiàn)得淋漓盡致。

還有宇航員在月球上奔跑的畫面，動作流暢，步態(tài)和影子的運動合理恰當(dāng)，太絕了。

除了運動，可靈大模型還能模擬真實物理世界特性，生成的視頻更符合物理規(guī)律。

在這段倒牛奶的視頻中，力學(xué)方面的重力規(guī)律、液面的上升都符合現(xiàn)實，連倒液體時泡沫一直在最上層的特性也考慮到了：

還有光學(xué)上的反射規(guī)律也考慮到了，注意看這只彈鋼琴的貓貓，光滑表面上影子里的貓爪和琴鍵，都在隨著本體同步變化。

另外，與真實物理世界的交互，也能被真實反映——下面視頻中小男孩吃漢堡的生成視頻中，一口咬下去，齒印一直都在，小男孩享受吃漢堡的享受過程宛如就在眼前。

要知道，符合物理規(guī)律對于大模型來說還是相當(dāng)困難的事，連Sora也不能完全做好。

比如同樣是吃漢堡這個場景，Sora生成的視頻不僅有人手只有三根手指這樣的槽點，咬合位置與漢堡上的咬痕也并不匹配……

不僅僅是真實世界中的物理規(guī)律和運動，對于想象力的場景，可靈也是信手拈來。

比如這只戴著眼鏡的兔子邊喝咖啡，邊看報紙，悠閑自得。

同時，可靈對細(xì)節(jié)的刻畫也很到位，比如兩朵緩慢綻放的花，可以看到花瓣和花蕊的細(xì)節(jié)。

而且，可靈不僅生成的視頻更加真實，生成的視頻分辨率高達(dá)1080p，時長高達(dá)2分鐘（幀率30fps），且支持自由的寬高比。

【視頻請到公眾號中查看】

其中也包括豎版視頻，可以說是和快手的短視頻生態(tài)相當(dāng)匹配了。

畫面中，一列火車向前方行駛，窗外的風(fēng)景走過了春夏秋冬四季，整個兩分多鐘的畫面都十分連貫。

【視頻請到公眾號中查看】

到這里，相信效果展示得已經(jīng)夠多了，如果還意猶未盡的話，可以前往可靈官網(wǎng)平臺（傳送門見文末），看更多神奇的AI視頻吧！

（注：本文中的視頻有壓縮，高清及最新效果以官方網(wǎng)頁為準(zhǔn)）

那么在可靈的這些視頻背后，都運用了哪些獨特的技術(shù)呢？

原生的視頻生成技術(shù)路線

整體上，可靈大模型的采用了原生的文生視頻技術(shù)路線，替代了圖像生成+時序模塊的組合，這也是可靈生成時間長、幀率高，能準(zhǔn)確處理復(fù)雜運動的核心奧義。

具體來看，快手大模型團(tuán)隊認(rèn)為，一個優(yōu)秀的視頻生成模型，需要考慮四大核心要素——模型設(shè)計、數(shù)據(jù)保障、計算效率，以及模型能力的擴(kuò)展。

類Sora模型架構(gòu)，scaling law得到驗證

先從模型的設(shè)計說起，這當(dāng)中主要應(yīng)當(dāng)考慮兩方面的因素，一是足夠強(qiáng)的擬合能力，二是足夠多的參數(shù)容量。

架構(gòu)的選擇方面，可靈整體框架采用了類Sora的DiT結(jié)構(gòu)，用Transformer代替了傳統(tǒng)擴(kuò)散模型中基于卷積網(wǎng)絡(luò)的U-Net。

Transformer的處理能力和生成能力更強(qiáng)大，擴(kuò)展能力更強(qiáng)、收斂效率更好，解決了U-Net在處理復(fù)雜任務(wù)時冗余過大、感受野和定位精度不可兼得的局限。

在此基礎(chǔ)之上，快手大模型團(tuán)隊還對模型中的隱空間編/解碼、時序建模等模塊進(jìn)行了升維。

目前，在隱空間編/解碼上，主流的視頻生成模型通常沿用Stable Diffusion的2D VAE進(jìn)行空間壓縮，但這對于視頻而言存在明顯的信息冗余。

因此，快手大模型團(tuán)隊自研了3D VAE網(wǎng)絡(luò)，實現(xiàn)時空同步壓縮，獲得了較高的重建質(zhì)量，在訓(xùn)練性能和效果取得了最佳平衡。

另外在時序信息建模上，快手大模型團(tuán)隊設(shè)計了一款計算高效的全注意力機(jī)制（3D Attention）作為時空建模模塊。

該方法可以更準(zhǔn)確地建模復(fù)雜時空運動，同時還能兼顧具運算成本，有效提升了模型的建模能力。

當(dāng)然，除了模型自身的能力，用戶輸入的文本提示詞也對最終生成的效果有著重要影響。

為此，團(tuán)隊專門設(shè)計了專用的語言模型，可以對用戶輸入的提示詞進(jìn)行高質(zhì)量擴(kuò)充及優(yōu)化。

數(shù)據(jù)如何構(gòu)建？自建高質(zhì)量數(shù)據(jù)篩選方案

說完了模型的設(shè)計，數(shù)據(jù)對于模型的表現(xiàn)同樣至關(guān)重要。

事實上，訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量不足，也正是許多視頻生成模型研發(fā)者所面臨的棘手問題。

網(wǎng)上視頻普遍質(zhì)量低、難以滿足訓(xùn)練需求?？焓执竽Ｐ蛨F(tuán)隊構(gòu)建了較為完備的標(biāo)簽體系，可以精細(xì)化的篩選訓(xùn)練數(shù)據(jù)，或?qū)τ?xùn)練數(shù)據(jù)的分布進(jìn)行調(diào)整。

該體系從視頻基礎(chǔ)質(zhì)量、美學(xué)、自然度等多個維度對視頻數(shù)據(jù)質(zhì)量進(jìn)行刻畫，并針對每一個維度設(shè)計多種定制化的標(biāo)簽特征。

在訓(xùn)練視頻生成模型時，需要同時把視頻及對應(yīng)文本描述喂給模型。視頻本身質(zhì)量也有了保證，其對應(yīng)文本描述，應(yīng)該如何獲得？

開發(fā)團(tuán)隊專門研發(fā)了視頻描述模型，可以生成精確、詳盡、結(jié)構(gòu)化的視頻描述。顯著提升視頻生成模型的文本指令響應(yīng)能力。

縱使模型天賦異稟，亦離不開勤學(xué)苦練

模型和數(shù)據(jù)都有了，運算效率也要跟得上，如此才能在有限的時間內(nèi)完成海量規(guī)模數(shù)據(jù)訓(xùn)練，看到顯著的效果。

為了獲得更高的運算效率，可靈大模型并沒有采用當(dāng)前行業(yè)主流的DDPM方案，而是使用了傳輸路徑更短的flow模型作為擴(kuò)散模型基座。

從另一層面上看，算力的不足也是不少AI從業(yè)者面臨的難題，即使像OpenAI這樣的大模型巨頭，所擁有的算力資源同樣緊缺。

這一問題在短時間內(nèi)可能無法徹底解決，但可以做的是，在總體硬件資源有限的條件下，盡可能地提高算力的運用效率。

快手大模型團(tuán)隊便使用了分布式訓(xùn)練集群，并通過算子優(yōu)化、重算策略優(yōu)化等手段，大幅提升了可靈大模型的硬件利用率。

在訓(xùn)練過程當(dāng)中，可靈也沒有選擇一步到位，而是采取分階段訓(xùn)練策略來逐步提升分辨率：

在初期的低分辨率階段，主要是以數(shù)量取勝，通過大量數(shù)據(jù)增強(qiáng)模型對概念多樣性的理解和建模能力；

在隨后的高分辨率階段，數(shù)據(jù)的質(zhì)量開始變成更重要的考量因素，目的是進(jìn)一步提高模型性能，并加強(qiáng)在細(xì)節(jié)上的表現(xiàn)。

采取這樣的策略，有效結(jié)合了量與質(zhì)的優(yōu)勢，確保了模型在訓(xùn)練的各個階段均能得到優(yōu)化提升。

需求千變?nèi)f化，模型游刃有余

在基礎(chǔ)模型的研發(fā)工作之上，快手大模型團(tuán)隊也從長寬比等多個維度上對其能力進(jìn)行了擴(kuò)展。

在長寬比上，可靈同樣沒有采用主流模型在固定分辨率上進(jìn)行訓(xùn)練的方式。

因為傳統(tǒng)方法在面對長寬比多變的真實數(shù)據(jù)時，通常會引入前處理邏輯，破壞了原始數(shù)據(jù)的構(gòu)圖，導(dǎo)致生成結(jié)果構(gòu)圖較差。

相比之下，快手大模型團(tuán)隊的方案可以使模型直接處理不同長寬比的數(shù)據(jù)，保留原始數(shù)據(jù)的構(gòu)圖。

為了應(yīng)對未來數(shù)分鐘甚至更長的視頻生成需求，團(tuán)隊也研發(fā)了基于自回歸的視頻時序拓展方案，且不會出現(xiàn)明顯的效果退化。

除了文本輸入外，可靈還支持多種控制信息輸入，如相機(jī)運鏡、幀率、邊緣/關(guān)鍵點/深度等，為用戶提供了豐富的內(nèi)容控制能力。

不做“畫餅”大模型，應(yīng)用才是硬道理

大模型行業(yè)“卷”到今天，我們見證了太多技術(shù)的高光時刻，但技術(shù)突破的初心仍然還是應(yīng)用。

快手可靈視頻生成模型，誕生于短視頻頭部廠商，也持續(xù)面向應(yīng)用在探索。非常值得一提的是，可靈大模型是發(fā)布即上線，不畫餅！不畫餅！不畫餅！

可靈的文生視頻模型，已在快影APP中正式開啟邀測，目前開放的版本支持720P視頻生成，豎版視頻生成能力也即將開放。

除了文生視頻，快手還基于可靈大模型推出了其他應(yīng)用，如“AI舞王”已在快手和快影APP中上線。

無論是科目三還是二人轉(zhuǎn)，只要上傳一張全身照，都能分分鐘讓人物跟著音樂優(yōu)雅地跳動，甚至兵馬俑也能跳起最炫民族風(fēng)。

【視頻請到公眾號中查看】

除了視頻生成模塊，快手大模型團(tuán)隊還向其中加入了自研3D人臉重建技術(shù)，以及背景穩(wěn)定性和重定向模塊，更生動地展現(xiàn)表情和運動效果。

而且，更新一些的“AI唱跳”技術(shù)也迎來了首發(fā)，在跳舞的同時，也能讓人物張嘴唱歌了。

【視頻請到公眾號中查看】

順便再做個劇透，基于可靈大模型的圖生視頻功能，也將于近期與用戶見面。

實際上，作為頭部視頻廠商，快手在大模型熱潮之中也動作迅速，此前就曾相繼推出語言模型和文生圖模型。

基于這些模型，AI文案、AI生圖，AI生視頻，以及更多AI創(chuàng)作功能，都已相繼在快手和快影APP中上線。

在視頻生成上，快手也曾與多個高?；蚩蒲袡C(jī)構(gòu)聯(lián)手，陸續(xù)發(fā)布可控運動的視頻生成算法Direct-a-Video、多模態(tài)生成算法Video-LaVIT、圖生視頻算法I2V-Adapter、多模態(tài)美學(xué)評價模型UNIAA等關(guān)鍵技術(shù)，為可靈大模型積累了深厚的技術(shù)沉淀。

現(xiàn)在，快手完整的文生視頻功能終于華麗登場，我們期待快手作為一家擁有獨特場景優(yōu)勢和廣泛應(yīng)用場景的短視頻賽道巨頭，能夠率先把視頻生成能力在短視頻場景中落地生花。

如果你對AI視頻創(chuàng)作感興趣，不妨到快影APP中一探究竟。

傳送門：
http://kling.kuaishou.com/

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

快手視頻生成

克雷西

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

快手版Sora「可靈」開放測試：生成超120s視頻，更懂物理，復(fù)雜運動也能精準(zhǔn)建模

更懂世界規(guī)律，復(fù)雜運動也能準(zhǔn)確刻畫