国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

視頻也可以用擴散模型來生成了，效果很能打：新SOTA已達成 | 谷歌

豐色 2022-04-11 13:19:51 來源：量子位

網(wǎng)友：進步好快啊

擴散模型最近是真的有點火。

前有OpenAI用它打敗霸榜多年的GAN，現(xiàn)在谷歌又緊隨其后，提出了一個視頻擴散模型。

和圖像生成一樣，初次嘗試，它居然就表現(xiàn)出了不俗的性能。

比如輸入“fireworks”，就能生成這樣的效果：

滿屏煙花盛放，肉眼看上去簡直可以說是以假亂真了。

為了讓生成視頻更長、分辨率更高，作者還在這個擴散模型中引入了一種全新的采樣方法。

最終，該模型在無條件視頻生成任務(wù)中達到全新SOTA。

一起來看。

由圖像擴散模型擴展而成

這個擴散視頻模型，由標(biāo)準(zhǔn)的圖像擴散模型UNet擴展而成。

UNet是一種神經(jīng)網(wǎng)絡(luò)架構(gòu)，分為空間下采樣通道和上采樣通道，通過殘差連接。

該網(wǎng)絡(luò)由多層2D卷積殘差塊構(gòu)建而成，每個卷積塊后面跟著一個空間注意塊。

通過固定幀數(shù)的塊，以及在空間和時間上分解的3D U-Net，就可以將它擴展為視頻模型。

具體來說：

先將每個二維卷積更改為三維卷積（space-only），比如將3×3卷積更改為1x3x3卷積（第一軸（axis）索引視頻幀，第二軸和第三軸索引空間高度和寬度）。

每個空間注意塊中的注意力仍然專注于空間維度。

然后，在每個空間注意塊之后，插入一個時間注意塊；該時間注意塊在第一個軸上執(zhí)行注意力，并將空間軸視為批處理軸（batch axes）。

眾所周知，像這樣在視頻Transformer中分對時空注意力進行分解，會讓計算效率更高。

由此一來，也就能在視頻和圖像上對模型進行聯(lián)合訓(xùn)練，而這種聯(lián)合訓(xùn)練對提高樣本質(zhì)量很有幫助。

此外，為了生成更長和更高分辨率的視頻，作者還引入了一種新的調(diào)整技術(shù)：梯度法。

它主要修改模型的采樣過程，使用基于梯度的優(yōu)化來改善去噪數(shù)據(jù)的條件損失，將模型自回歸擴展到更多的時間步（timestep）和更高的分辨率。

評估無條件和文本條件下的生成效果

對于無條件視頻生成，訓(xùn)練和評估在現(xiàn)有基準(zhǔn)上進行。

該模型最終獲得了最高的FID分?jǐn)?shù)和IS分?jǐn)?shù)，大大超越了此前的SOTA模型。

對于文本條件下的視頻生成，作者在1000萬個字幕視頻的數(shù)據(jù)集上進行了訓(xùn)練，空間分辨率為64x64px；

在此之前，視頻生成模型采用的都是各種GAN、VAE，以及基于流的模型以及自回歸模型。

所以這也是他們首次報告擴散模型根據(jù)文本生成視頻的結(jié)果。

下圖則顯示了無分類器引導(dǎo)對該模型生成質(zhì)量的影響：與其他非擴散模型一致，添加引導(dǎo)會增加每個單獨圖像的保真度（右為該視頻擴散模型，可以看到它的圖片更加真實和清晰）。

△ 圖片為隨機截取的視頻幀

最后，作者也驗證發(fā)現(xiàn)，他們所提出的梯度法在生成長視頻時，確實比此前的方法更具多樣性，也就更能保證生成的樣本與文本達成一致。

△ 右為梯度法

論文地址：
https://arxiv.org/abs/2204.03458

項目主頁：
https://video-diffusion.github.io/

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

擴散模型視頻生成谷歌

豐色

相關(guān)閱讀

光纜能預(yù)警地震？谷歌做到了！140萬公里海纜有望成為報警器

今年已經(jīng)成功預(yù)警多次地震

賈浩楠2020-07-21

地震谷歌

OpenAI被曝將發(fā)布全新開源大模型，網(wǎng)友：GPT平替？

四年之后又要Open了

白交2023-05-16

OpenAI 開源谷歌

谷歌又一部門震蕩：半年2名副總出走，開發(fā)團隊只剩一半

博雯2021-08-25

Google Pay 谷歌

谷歌TPU訓(xùn)練BERT只要23秒，華為AI芯片達國際領(lǐng)先水平，MLPerf v0.7出爐

昇騰910性能超英偉達V100

曉查2020-07-30

AI芯片華為英偉達谷歌

謝賽寧團隊新作：不用提示詞精準(zhǔn)實現(xiàn)3D畫面控制

視覺生成邁向多模態(tài)、3D語義與交互融合的新智能創(chuàng)作范式

henry2025-07-03

AI 擴散模型

Keras將死于谷歌之手？reddit網(wǎng)友寫“送葬文”，引發(fā)熱議

6歲的Keras經(jīng)歷了什么？

子豪2021-04-06

JAX Keras PyTorch TensorFlow 深度學(xué)習(xí) 谷歌

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

視頻也可以用擴散模型來生成了，效果很能打：新SOTA已達成 | 谷歌

由圖像擴散模型擴展而成