視頻也可以用擴散模型來生成了,效果很能打:新SOTA已達成 | 谷歌
網(wǎng)友:進步好快啊
擴散模型最近是真的有點火。
前有OpenAI用它打敗霸榜多年的GAN,現(xiàn)在谷歌又緊隨其后,提出了一個視頻擴散模型。
和圖像生成一樣,初次嘗試,它居然就表現(xiàn)出了不俗的性能。
比如輸入“fireworks”,就能生成這樣的效果:
滿屏煙花盛放,肉眼看上去簡直可以說是以假亂真了。
為了讓生成視頻更長、分辨率更高,作者還在這個擴散模型中引入了一種全新的采樣方法。
最終,該模型在無條件視頻生成任務(wù)中達到全新SOTA。
一起來看。
由圖像擴散模型擴展而成
這個擴散視頻模型,由標(biāo)準(zhǔn)的圖像擴散模型UNet擴展而成。
UNet是一種神經(jīng)網(wǎng)絡(luò)架構(gòu),分為空間下采樣通道和上采樣通道,通過殘差連接。
該網(wǎng)絡(luò)由多層2D卷積殘差塊構(gòu)建而成,每個卷積塊后面跟著一個空間注意塊。
通過固定幀數(shù)的塊,以及在空間和時間上分解的3D U-Net,就可以將它擴展為視頻模型。
具體來說:
先將每個二維卷積更改為三維卷積(space-only),比如將3×3卷積更改為1x3x3卷積(第一軸(axis)索引視頻幀,第二軸和第三軸索引空間高度和寬度)。
每個空間注意塊中的注意力仍然專注于空間維度。
然后,在每個空間注意塊之后,插入一個時間注意塊;該時間注意塊在第一個軸上執(zhí)行注意力,并將空間軸視為批處理軸(batch axes)。
眾所周知,像這樣在視頻Transformer中分對時空注意力進行分解,會讓計算效率更高。
由此一來,也就能在視頻和圖像上對模型進行聯(lián)合訓(xùn)練,而這種聯(lián)合訓(xùn)練對提高樣本質(zhì)量很有幫助。
此外,為了生成更長和更高分辨率的視頻,作者還引入了一種新的調(diào)整技術(shù):梯度法。
它主要修改模型的采樣過程,使用基于梯度的優(yōu)化來改善去噪數(shù)據(jù)的條件損失,將模型自回歸擴展到更多的時間步(timestep)和更高的分辨率。
評估無條件和文本條件下的生成效果
對于無條件視頻生成,訓(xùn)練和評估在現(xiàn)有基準(zhǔn)上進行。
該模型最終獲得了最高的FID分?jǐn)?shù)和IS分?jǐn)?shù),大大超越了此前的SOTA模型。
對于文本條件下的視頻生成,作者在1000萬個字幕視頻的數(shù)據(jù)集上進行了訓(xùn)練,空間分辨率為64x64px;
在此之前,視頻生成模型采用的都是各種GAN、VAE,以及基于流的模型以及自回歸模型。
所以這也是他們首次報告擴散模型根據(jù)文本生成視頻的結(jié)果。
下圖則顯示了無分類器引導(dǎo)對該模型生成質(zhì)量的影響:與其他非擴散模型一致,添加引導(dǎo)會增加每個單獨圖像的保真度(右為該視頻擴散模型,可以看到它的圖片更加真實和清晰)。
△ 圖片為隨機截取的視頻幀
最后,作者也驗證發(fā)現(xiàn),他們所提出的梯度法在生成長視頻時,確實比此前的方法更具多樣性,也就更能保證生成的樣本與文本達成一致。
△ 右為梯度法
論文地址:
https://arxiv.org/abs/2204.03458
項目主頁:
https://video-diffusion.github.io/
- 北大開源最強aiXcoder-7B代碼大模型!聚焦真實開發(fā)場景,專為企業(yè)私有部署設(shè)計2024-04-09
- 剛剛,圖靈獎揭曉!史上首位數(shù)學(xué)和計算機最高獎“雙料王”出現(xiàn)了2024-04-10
- 8.3K Stars!《多模態(tài)大語言模型綜述》重大升級2024-04-10
- 谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用2024-04-10