国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

Diffusion Model一發(fā)力，GAN就過(guò)時(shí)了？？？

十三 2022-08-20 14:36:25 來(lái)源：量子位

馬毅：千萬(wàn)不要被目前熱的東西忽悠

金磊 Alex 發(fā)自凹非寺

量子位 | 公眾號(hào) QbitAI

曾經(jīng)大紅大紫的GAN已過(guò)時(shí)。

馬里蘭大學(xué)副教授Tom Goldstein最近發(fā)表的一個(gè)推文，可謂是一石激起千層浪。

就連科技圈的大佬們也紛紛前來(lái)關(guān)注：

話題里“劍指”的關(guān)鍵詞則是Diffusion Model，用Tom的話來(lái)說(shuō)就是：

在2021年，它甚至可以說(shuō)是聞所未聞。

但其實(shí)這個(gè)算法并不陌生，因?yàn)樗茿I作畫(huà)神器DALL·E的核心。

而且DALL·E的作者打一開(kāi)始就“沒(méi)看上”GAN，直接將其放棄。

無(wú)獨(dú)有偶，同樣的話題在國(guó)內(nèi)也引發(fā)了不小的討論：

那么圖像生成領(lǐng)域的這波“后浪推前浪”，究竟是為何？

咱們這就來(lái)盤一盤。

什么是Diffusion Model？

Diffusion Model這次被拉進(jìn)聚光燈之下，不得不歸功于各類“AI一句話作圖”神器的火爆。

例如OpenAI家的DALL·E 2：

谷歌家的Imagen：

不難看出，這些近期大流行的圖像生成神器，不論是真實(shí)程度亦或是想象、理解能力，都是比較符合人類的預(yù)期。

因此它們也成為了這屆網(wǎng)友們把玩的“新寵”（當(dāng)年GAN出道的時(shí)候也是被玩壞了）。

而如此能力背后的關(guān)鍵，便是Diffusion Model。

它的研究最早可以追溯到2015年，當(dāng)時(shí)，斯坦福和伯克利的研究人員發(fā)布了一篇名為Deep Unsupervised Learning using Nonequilibrium Thermodynamics的論文：

但這篇研究和目前的Diffusion Model非常不一樣；而真正使其發(fā)揮作用的研究是2020年，一項(xiàng)名為Denoising Diffusion Probabilistic Models的研究：

我們可以先來(lái)看一下各類生成模型之間的對(duì)比：

不難看出，Diffusion Model和其它模型的不同點(diǎn)在于，它的latent code(z)和原圖是同尺寸大小的。

若是簡(jiǎn)單來(lái)概括Diffusion Model，就是存在一系列高斯噪聲（T輪），將輸入圖片x0變?yōu)榧兏咚乖肼晉T。

再細(xì)分來(lái)看，Diffusion Model首先包含一個(gè)前向過(guò)程（Forward diffusion process）。

這個(gè)過(guò)程的目的，就是往圖片上添加噪聲；但在這一步中還無(wú)法實(shí)現(xiàn)圖片生成。

其次是一個(gè)逆向過(guò)程（Reverse diffusion process），這個(gè)過(guò)程可以理解為Diffusion的去噪推斷過(guò)程。

最后在訓(xùn)練階段，則是通過(guò)對(duì)真實(shí)數(shù)據(jù)分布下，最大化模型預(yù)測(cè)分布的對(duì)數(shù)似然。

上述的過(guò)程是基于DDPM這項(xiàng)研究展開(kāi)。

不過(guò)知乎用戶“我想唱high C”（TSAIL博士）認(rèn)為：

DDPM提出的時(shí)候，領(lǐng)域里的研究者其實(shí)并不完全清楚這個(gè)模型背后的數(shù)學(xué)原理，所以文章里的描述沒(méi)有探尋到更本質(zhì)的數(shù)學(xué)原理。

在他看來(lái)，直到斯坦福大學(xué)Yang Song等在Score-Based Generative Modeling through Stochastic Differential Equations中，才首次揭示了diffusion model的連續(xù)版本對(duì)應(yīng)的數(shù)學(xué)背景。

并且將統(tǒng)計(jì)機(jī)器學(xué)習(xí)中的denoising score matching方法與DDPM中的去噪訓(xùn)練統(tǒng)一起來(lái)。

更多細(xì)節(jié)過(guò)程可以參考文末鏈接中的論文詳情。

那么接下來(lái)需要探討的一個(gè)問(wèn)題是：

為什么GAN這么快會(huì)被取代？

用OpenAI的一篇論文內(nèi)容來(lái)講，用Diffusion Model生成的圖像質(zhì)量明顯優(yōu)于GAN模型。

DALL·E是個(gè)多模態(tài)預(yù)訓(xùn)練大模型，“多模態(tài)”和“大”字都說(shuō)明，訓(xùn)練這個(gè)模型的數(shù)據(jù)集十分龐大冗雜。

發(fā)表這篇推特的Tom Goldstein教授提到，GAN模型訓(xùn)練過(guò)程有個(gè)難點(diǎn)，就是眾多損失函數(shù)的鞍點(diǎn)（saddle-point）的最優(yōu)權(quán)重如何確定，這其實(shí)是個(gè)蠻復(fù)雜的數(shù)學(xué)問(wèn)題。

在多層深度學(xué)習(xí)模型的訓(xùn)練過(guò)程中，需通過(guò)多次反饋，直至模型收斂。

但在實(shí)際操作中發(fā)現(xiàn)，損失函數(shù)往往不能可靠地收斂到鞍點(diǎn)，導(dǎo)致模型穩(wěn)定性較差。即使有研究人員提出一些技巧來(lái)加強(qiáng)鞍點(diǎn)的穩(wěn)定性，但還是不足以解決這個(gè)問(wèn)題。

尤其面對(duì)更加復(fù)雜、多樣化的數(shù)據(jù)，鞍點(diǎn)的處理就變得愈加困難了。

與GAN不同，DALL·E使用Diffusion Model，不用在鞍點(diǎn)問(wèn)題上糾結(jié)，只需要去最小化一個(gè)標(biāo)準(zhǔn)的凸交叉熵?fù)p失（convex cross-entropy loss），而且人已經(jīng)知道如何使其穩(wěn)定。

這樣就大大簡(jiǎn)化了模型訓(xùn)練過(guò)程中，數(shù)據(jù)處理的難度。說(shuō)白了，就是用一個(gè)新的數(shù)學(xué)范式，從新穎的角度克服了一道障礙。

此外，GAN模型在訓(xùn)練過(guò)程中，除了需要“生成器”，將采樣的高斯噪聲映射到數(shù)據(jù)分布；還需要額外訓(xùn)練判別器，這就導(dǎo)致訓(xùn)練變得很麻煩了。

和GAN相比，Diffusion Model只需要訓(xùn)練“生成器”，訓(xùn)練目標(biāo)函數(shù)簡(jiǎn)單，而且不需要訓(xùn)練別的網(wǎng)絡(luò)（判別器、后驗(yàn)分布等），瞬間簡(jiǎn)化了一堆東西。

目前的訓(xùn)練技術(shù)讓Diffusion Model直接跨越了GAN領(lǐng)域調(diào)模型的階段，而是直接可以用來(lái)做下游任務(wù)。

△Diffusion Model直觀圖

從理論角度來(lái)看，Diffusion Model的成功在于訓(xùn)練的模型只需要“模仿”一個(gè)簡(jiǎn)單的前向過(guò)程對(duì)應(yīng)的逆向過(guò)程，而不需要像其它模型那樣“黑盒”地搜索模型。

并且，這個(gè)逆向過(guò)程的每一小步都非常簡(jiǎn)單，只需要用一個(gè)簡(jiǎn)單的高斯分布（q(x(t-1)| xt)）來(lái)擬合。

這為Diffusion Model的優(yōu)化帶來(lái)了諸多便利，這也是它經(jīng)驗(yàn)表現(xiàn)非常好的原因之一。

Diffushion Model是否就是完美？

不見(jiàn)得。

從趨勢(shì)上來(lái)看，Diffushion Model領(lǐng)域確實(shí)正處于百花齊放的狀態(tài)，但正如“我想唱high C”所述：

這個(gè)領(lǐng)域有一些核心的理論問(wèn)題還需要研究，這給我們這些做理論的人提供了個(gè)很有價(jià)值的研究?jī)?nèi)容。>
并且，哪怕對(duì)理論研究不感興趣，由于這個(gè)模型已經(jīng)很work了，它和下游任務(wù)的結(jié)合也才剛剛起步，有很多地方都可以趕緊占坑。

我相信Diffusion Model的加速采樣肯定會(huì)在不久的將來(lái)徹底被解決，從而讓Diffusion Model占據(jù)深度生成模型的主導(dǎo)。

而對(duì)于Diffusion Model的有效性以及很快取代GAN這件事，馬毅教授認(rèn)為充分地說(shuō)明了一個(gè)道理：

幾行簡(jiǎn)單正確的數(shù)學(xué)推導(dǎo)，可以比近十年的大規(guī)模調(diào)試超參調(diào)試網(wǎng)絡(luò)結(jié)構(gòu)有效得多。

不過(guò)對(duì)于這種“前浪推后浪”的火熱，馬毅教授也有不一樣的觀點(diǎn)：

希望年輕的研究員端正研究的目的和態(tài)度，千萬(wàn)不要被目前熱的東西忽悠。

包括Diffusion Process，這其實(shí)也是好幾百年old的想法，只是老樹(shù)發(fā)新芽，找到新的應(yīng)用。

“我想唱high C”知乎回答：

https://www.zhihu.com/question/536012286/answer/2533146567

參考鏈接：

[1]https://twitter.com/tomgoldsteincs/status/1560334207578161152?s=21&t=QE8OFIwufZSTNi5bQhs0hQ
[2]https://www.zhihu.com/question/536012286
[3]https://arxiv.org/pdf/2105.05233.pdf
[4]https://arxiv.org/abs/1503.03585
[5]https://arxiv.org/abs/2006.11239
[6]https://arxiv.org/abs/2011.13456
[7]https://weibo.com/u/3235040884?topnav=1&wvr=6&topsug=1&is_all=1

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

diffusion GAN 人工智能深度學(xué)習(xí)

十三

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

Diffusion Model一發(fā)力，GAN就過(guò)時(shí)了？？？

什么是Diffusion Model？

為什么GAN這么快會(huì)被取代？

Diffushion Model是否就是完美？

相關(guān)閱讀

讓GAN再次偉大！拽一拽關(guān)鍵點(diǎn)就能讓獅子張嘴&大象轉(zhuǎn)身，湯曉鷗弟子的DragGAN爆火，網(wǎng)友：R.I.P. Photoshop

看懂這十步，8歲的小朋友都能理解深度學(xué)習(xí)

馬斯克罕見(jiàn)服軟認(rèn)輸，李開(kāi)復(fù)也不必直播吃車，這段無(wú)人車公案提前出結(jié)果了

國(guó)產(chǎn)AI可以拍微電影了！4K、60幀高清畫(huà)質(zhì)，自帶音效

2040張圖片訓(xùn)練出的ViT，準(zhǔn)確率96.7%，連遷移性能都令人驚訝 | 南京大學(xué)

高仙機(jī)器人宣布完成B+輪1.5億元融資

熱門文章

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了！首創(chuàng)層次化評(píng)價(jià)體系，告別“誰(shuí)的demo更吸睛”主觀評(píng)估

宇樹(shù)機(jī)器人“撞人逃逸”火到國(guó)外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬(wàn)維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機(jī)插詞匯就行

賣酒的茅臺(tái)要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

Diffusion Model一發(fā)力，GAN就過(guò)時(shí)了？？？

什么是Diffusion Model？

為什么GAN這么快會(huì)被取代？

Diffushion Model是否就是完美？

相關(guān)閱讀

讓GAN再次偉大！拽一拽關(guān)鍵點(diǎn)就能讓獅子張嘴&大象轉(zhuǎn)身，湯曉鷗弟子的DragGAN爆火，網(wǎng)友：R.I.P. Photoshop

看懂這十步，8歲的小朋友都能理解深度學(xué)習(xí)

馬斯克罕見(jiàn)服軟認(rèn)輸，李開(kāi)復(fù)也不必直播吃車，這段無(wú)人車公案提前出結(jié)果了

國(guó)產(chǎn)AI可以拍微電影了！4K、60幀高清畫(huà)質(zhì)，自帶音效

2040張圖片訓(xùn)練出的ViT，準(zhǔn)確率96.7%，連遷移性能都令人驚訝 | 南京大學(xué)

高仙機(jī)器人宣布完成B+輪1.5億元融資

熱門文章

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了！首創(chuàng)層次化評(píng)價(jià)體系，告別“誰(shuí)的demo更吸睛”主觀評(píng)估

宇樹(shù)機(jī)器人“撞人逃逸”火到國(guó)外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬(wàn)維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機(jī)插詞匯就行

賣酒的茅臺(tái)要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度

Diffusion Model一發(fā)力，GAN就過(guò)時(shí)了？？？

什么是Diffusion Model？

為什么GAN這么快會(huì)被取代？

Diffushion Model是否就是完美？

讓GAN再次偉大！拽一拽關(guān)鍵點(diǎn)就能讓獅子張嘴&大象轉(zhuǎn)身，湯曉鷗弟子的DragGAN爆火，網(wǎng)友：R.I.P. Photoshop

看懂這十步，8歲的小朋友都能理解深度學(xué)習(xí)

馬斯克罕見(jiàn)服軟認(rèn)輸，李開(kāi)復(fù)也不必直播吃車，這段無(wú)人車公案提前出結(jié)果了

國(guó)產(chǎn)AI可以拍微電影了！4K、60幀高清畫(huà)質(zhì)，自帶音效

2040張圖片訓(xùn)練出的ViT，準(zhǔn)確率96.7%，連遷移性能都令人驚訝 | 南京大學(xué)

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了！首創(chuàng)層次化評(píng)價(jià)體系，告別“誰(shuí)的demo更吸睛”主觀評(píng)估

宇樹(shù)機(jī)器人“撞人逃逸”火到國(guó)外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬(wàn)維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機(jī)插詞匯就行

賣酒的茅臺(tái)要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度