量子位智庫 | 公眾號 AI123All
2024年,AI視頻生成是最受關(guān)注的領(lǐng)域之一,OpenAI在今年2月發(fā)布Sora,推動視頻生成技術(shù)出圈的的同時也催化了產(chǎn)業(yè)的發(fā)展,目前AI視頻生成現(xiàn)狀如何,有哪些趨勢和特點?量子位智庫將在《AI視頻生成研究報告》中回答這些問題,報告將分為技術(shù)側(cè)、應用側(cè)、玩家格局三個部分進行討論,核心觀點包括:
- 視頻生成技術(shù)正在從檢索生成、局部生成走向基于提示詞的全量生成
- 視頻生成模型的能力將在算力驅(qū)動下快速進步,解鎖更多應用空間
- 推理成本將持續(xù)下降,生成速度進一步提高,推動應用層和商業(yè)化發(fā)展
- 視頻生成模型不僅限于生成視頻內(nèi)容,長期將統(tǒng)一多模態(tài)的生成和理解,成為通往AGI的重要路徑
- AI視頻生成正在賦能傳統(tǒng)視頻工作流,目前主要價值在于素材生成環(huán)節(jié)
- 新一代的AI視頻工作流正在萌生,將整合音視頻創(chuàng)作全流程,提高創(chuàng)作效率
- …




DiT和語言模型是目前最受關(guān)注的兩條技術(shù)路徑。OpenAI發(fā)布Sora把Diffusion Transformer(DiT)推向了主流應用,具體而言是用Transformer替代傳統(tǒng)擴散模型中的卷積神經(jīng)網(wǎng)絡(luò)U-Net,隨后大量視頻生成玩家開始跟進DiT路線并取得了效果上的進步。單純基于語言模型的路線是業(yè)界關(guān)注的另一條路徑,可以更好地融合不同的模態(tài),且可擴展性強,未來可能會有新的進展。


在訓練側(cè),視頻大模型的進步同樣遵循Scaling Law,需要在Scalable的模型架構(gòu)上不斷增加數(shù)據(jù)和算力來提升模型能力。在推理側(cè),需要算力成本的下降和充足的供給來支撐下游的應用和商業(yè)化。我們正在看到GPU的性能提升和領(lǐng)軍玩家在算力基建上的巨額投入,這將成為未來視頻模型發(fā)展和應用的根本驅(qū)動力。


在自然語言處理領(lǐng)域,大語言模型開啟了技術(shù)的范式轉(zhuǎn)移,在諸多語言任務(wù)上遠超傳統(tǒng)的NLP技術(shù)。類似地,視頻生成大模型可能在計算機視覺領(lǐng)域有同樣的效果,在各類視覺信息的理解和生成上占據(jù)主導地位。長期看來,視頻生成模型有更宏大的愿景,將成為世界模型、AGI的重要組成部分。





以同屬視頻內(nèi)容場景的電商直播數(shù)字人為例,據(jù)新壹科技雷濤介紹,從成本角度看,電商主播的成本在每小時300-500元左右,電商數(shù)字人主播的成本在每小時數(shù)元,成本可以降低1-2個數(shù)量級,從可用性的角度看,數(shù)字人在電商垂類場景下可以很好地滿足需求,主要負責關(guān)于商品銷售的相關(guān)問答,既可以保證回答的正確性,也有容錯和不應答的空間。此外目前用戶在電商直播間的平均停留時間僅約1分鐘,對于模型長時間的生成效果要求較低,現(xiàn)有數(shù)字人技術(shù)可以滿足用戶在短時間購物體驗需求,這是一個技術(shù)匹配市場的案例。
就各類視頻內(nèi)容而言,視頻生成已經(jīng)可以實現(xiàn)不同幅度的成本削減,對于通用的文生視頻、圖生視頻功能,目前已經(jīng)可以看到少量的應用案例。但整體而言應用仍處在早期階段。目前主要的制約因素依然是模型能力,生成效果和可控性難以滿足商用需求,且需要專業(yè)的提示詞交互能力以及相應的后期處理。但我們預期模型能力將持續(xù)提升,相關(guān)產(chǎn)品、交互形式將更加完善,可控性將在模型層和產(chǎn)品層兩個方面得到提升。




我們認為未來視頻生成的普及需要在工作流層面的創(chuàng)新和成熟?,F(xiàn)階段AI視頻的工作流比較碎片化,需要在多個應用之間穿插,創(chuàng)作摩擦較大,例如先在Midhourney生成指導圖,再使用視頻應用的圖生視頻功能,再進行后期的剪輯和配音。未來視頻生成領(lǐng)域在工作流層面的創(chuàng)新將主要包括兩個方向,一是精細化生成,可以對視頻中各類細節(jié)進行控制,二是流程化整合,以減少創(chuàng)作的摩擦和阻力,通過一站式服務(wù)提高效率。目前市場上已有一些相關(guān)方向的嘗試,但受限于基礎(chǔ)模型模型的能力,整體生成效果依然欠佳,但我們預計隨著模型能力的進步局限性將逐步緩解。










目前視頻生成領(lǐng)域主要有5類玩家,包括OpenAI、互聯(lián)網(wǎng)公司、技術(shù)創(chuàng)業(yè)公司、內(nèi)容工具軟件以及垂類創(chuàng)業(yè)公司。
從模型層來看:各家的競爭力取決于規(guī)模和投入度,互聯(lián)網(wǎng)公司、技術(shù)創(chuàng)業(yè)公司及內(nèi)容工具平臺的頭部玩家在模型層基本處于相近水平,例如谷歌Veo,Runway Gen-3,快手可靈,預計Adobe的Firefly(視頻模型正在研發(fā)中)以及Midjourney(視頻模型正在研發(fā)中)也會達到類似水平。競爭格局上看,考慮到1)內(nèi)容生成的多樣性需求、文化差異,2)類似語言模型格局,B端會保留多個選擇,3)但視頻基礎(chǔ)模型的的進入門檻高(算力、數(shù)據(jù)、人才等),基礎(chǔ)模型層不會一家獨大,但也不會過于碎片,海外和本土可能各有數(shù)家基礎(chǔ)模型提供商占據(jù)市場的大部分份額。對于內(nèi)容軟件和垂類創(chuàng)業(yè)公司,基礎(chǔ)模型對于多數(shù)內(nèi)容工具軟件和垂類創(chuàng)業(yè)公司并不是核心業(yè)務(wù),主要還是業(yè)務(wù)導向匹配用戶需求,愿意在自己的軟件中外接其他模型或者使用微調(diào)后的模型,數(shù)據(jù)基礎(chǔ)模型進步的受益方,不會在基礎(chǔ)模型層和大公司和專業(yè)公司競爭。
從產(chǎn)品層來看:目前大部分視頻生成應用的產(chǎn)品設(shè)計簡單,也比較同質(zhì)化,包括文生視頻、圖生視頻以及一些相應的控制功能,例如時長選擇、風格選擇、鏡頭控制、動態(tài)筆刷等。預計未來將會有更多在產(chǎn)品層的創(chuàng)新應用,主要是可控生成和流程整合兩個方面。關(guān)于生成內(nèi)容的可控性主要分兩個部分,一部分是基礎(chǔ)模型的能力,包括指令遵循能力,生成效果的一致性和穩(wěn)定性;另一部分是基于外部工具或工作流來提高可控性,例如分圖層的生成、編輯、組合,片段間場景、人物一致性的控制等,這一部分有望通過產(chǎn)品創(chuàng)新來改進。流程整合主要是整合包括文本、視頻、音頻等視頻制作的全流程功能,目前大部分視頻生成工具缺少音頻字幕、后期編輯等視頻常用功能,難以滿足用戶需求,在未來將成為重要的改進方向。技術(shù)創(chuàng)業(yè)公司的產(chǎn)品化速度較快,迭代更靈活,且擁有模型層能力,在產(chǎn)品層更有優(yōu)勢。
從場景層來看:除垂類創(chuàng)業(yè)公司以外,其他玩家都未找到明確的應用場景,大多在實驗和探索階段,C端主要還是一些Prosumer(專業(yè)創(chuàng)作者)比如自媒體創(chuàng)作者、藝術(shù)家等,B端客戶由于模型效果差、可控性弱、和技術(shù)接受度等原因滲透較少,只有少量單點的案例。大場景或PMF的確認可能需要等待模型能力進步、產(chǎn)品的打磨、和推理成本的下降,需要一段時間的摸索。


互聯(lián)網(wǎng)公司:互聯(lián)網(wǎng)公司的資源充足,從算力上來看,頭部互聯(lián)網(wǎng)公司一般有自建云服務(wù),算力和基礎(chǔ)設(shè)施層面優(yōu)勢比較大。從數(shù)據(jù)上來看,有視頻內(nèi)容平臺的互聯(lián)網(wǎng)公司優(yōu)勢較大,例如字節(jié)跳動、快手等公司,視頻內(nèi)容的推薦系統(tǒng)積累大量的視頻數(shù)據(jù),標注質(zhì)量較好,分類細致準確,可以大幅助力模型訓練。目前國內(nèi)互聯(lián)網(wǎng)在模型層和產(chǎn)品層追趕速度較快,海外互聯(lián)網(wǎng)公司由于內(nèi)容安全和的數(shù)據(jù)版權(quán)問題受到掣肘較大,產(chǎn)品化進展相對緩慢,但實驗性項目和前沿研究較多。
內(nèi)容工具軟件:不同玩家的差異較大,海外巨頭如Adobe的競爭力較強,會同時發(fā)力模型層和產(chǎn)品層,自研了生成式AI的創(chuàng)意工具Firefly,目前正在訓練視頻生成模型、也會開放外接其他模型。國內(nèi)的中小玩家在模型層不會追求最好、最大模型與大玩家競爭,主要機會在生成內(nèi)容特色化、本土化等用戶需求,同時對外接其他基礎(chǔ)模型持開放態(tài)度。內(nèi)容工具軟件在模型層的主要優(yōu)勢在于數(shù)據(jù)的積累,例如旗下的版權(quán)庫有大量高質(zhì)量的視覺內(nèi)容,以及長期運營中積累的用戶上傳的視頻內(nèi)容。此外內(nèi)容工具軟件在不同程度上有一定用戶基礎(chǔ)(從專業(yè)級用戶到普通用戶)和場景優(yōu)勢。
技術(shù)創(chuàng)業(yè)公司:數(shù)據(jù)和算力資源上相對互聯(lián)網(wǎng)公司沒有優(yōu)勢,但產(chǎn)品迭代速度較快,更加靈活,關(guān)鍵在于團隊的技術(shù)能力和產(chǎn)品能力。目前海外頭部創(chuàng)業(yè)公司主要是Runway和Pika,團隊人才密度高,融資額度大,且背靠硅谷、資方背景亮眼,產(chǎn)品投放市場較早,已經(jīng)過2-3輪版本迭代,有一定的用戶社區(qū)。本土的技術(shù)創(chuàng)業(yè)公司主要分為視頻生成創(chuàng)業(yè)公司和大模型技術(shù)創(chuàng)業(yè)公司,少量公司有產(chǎn)品面世但正在逐漸投放市場,大部分還在產(chǎn)品打磨階段,整體上相比海外頭部公司處于追趕階段,我們預計年內(nèi)大部分公司都會將產(chǎn)品投放市場。
垂類創(chuàng)業(yè)公司:目前垂類創(chuàng)業(yè)公司的場景主要在視頻營銷領(lǐng)域,可以快速實現(xiàn)商業(yè)化落地,客戶主要以各類商家為主。模型層和主流討論的文生視頻差異較大,不追求通用化、創(chuàng)意化的生成效果,主要強調(diào)在營銷場景下的可控性和穩(wěn)定性,并針對此類功能做專項的模型增強。另外技術(shù)上不一定需要走生成式AI的路線(基于擴散模型、Transformer),基于多模態(tài)機器學習、素材的檢索生成組合也在很多場景下更能滿足需求,但生成式AI可作為素材補充。垂類創(chuàng)業(yè)公司和核心優(yōu)勢在于對于營銷業(yè)務(wù)的理解,包括營銷視頻ROI最大化,跨平臺運營以及垂類場景的數(shù)據(jù)等,對行業(yè)knowhow有較高要求。
完整報告下載地址:
https://jkhbjkhb.feishu.cn/wiki/W5D7wuDcbiPXDLkaRLQcAJpOn8f?fromScene=spaceOverview