Diffusion Model一發(fā)力,GAN就過(guò)時(shí)了???
馬毅:千萬(wàn)不要被目前熱的東西忽悠
金磊 Alex 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
曾經(jīng)大紅大紫的GAN已過(guò)時(shí)。
馬里蘭大學(xué)副教授Tom Goldstein最近發(fā)表的一個(gè)推文,可謂是一石激起千層浪。
就連科技圈的大佬們也紛紛前來(lái)關(guān)注:
話題里“劍指”的關(guān)鍵詞則是Diffusion Model,用Tom的話來(lái)說(shuō)就是:
在2021年,它甚至可以說(shuō)是聞所未聞。
但其實(shí)這個(gè)算法并不陌生,因?yàn)樗茿I作畫(huà)神器DALL·E的核心。
而且DALL·E的作者打一開(kāi)始就“沒(méi)看上”GAN,直接將其放棄。
無(wú)獨(dú)有偶,同樣的話題在國(guó)內(nèi)也引發(fā)了不小的討論:
那么圖像生成領(lǐng)域的這波“后浪推前浪”,究竟是為何?
咱們這就來(lái)盤一盤。
什么是Diffusion Model?
Diffusion Model這次被拉進(jìn)聚光燈之下,不得不歸功于各類“AI一句話作圖”神器的火爆。
例如OpenAI家的DALL·E 2:
谷歌家的Imagen:
不難看出,這些近期大流行的圖像生成神器,不論是真實(shí)程度亦或是想象、理解能力,都是比較符合人類的預(yù)期。
因此它們也成為了這屆網(wǎng)友們把玩的“新寵”(當(dāng)年GAN出道的時(shí)候也是被玩壞了)。
而如此能力背后的關(guān)鍵,便是Diffusion Model。
它的研究最早可以追溯到2015年,當(dāng)時(shí),斯坦福和伯克利的研究人員發(fā)布了一篇名為Deep Unsupervised Learning using Nonequilibrium Thermodynamics的論文:
但這篇研究和目前的Diffusion Model非常不一樣;而真正使其發(fā)揮作用的研究是2020年,一項(xiàng)名為Denoising Diffusion Probabilistic Models的研究:
我們可以先來(lái)看一下各類生成模型之間的對(duì)比:
不難看出,Diffusion Model和其它模型的不同點(diǎn)在于,它的latent code(z)和原圖是同尺寸大小的。
若是簡(jiǎn)單來(lái)概括Diffusion Model,就是存在一系列高斯噪聲(T輪),將輸入圖片x0變?yōu)榧兏咚乖肼晉T。
再細(xì)分來(lái)看,Diffusion Model首先包含一個(gè)前向過(guò)程(Forward diffusion process)。
這個(gè)過(guò)程的目的,就是往圖片上添加噪聲;但在這一步中還無(wú)法實(shí)現(xiàn)圖片生成。
其次是一個(gè)逆向過(guò)程(Reverse diffusion process),這個(gè)過(guò)程可以理解為Diffusion的去噪推斷過(guò)程。
最后在訓(xùn)練階段,則是通過(guò)對(duì)真實(shí)數(shù)據(jù)分布下,最大化模型預(yù)測(cè)分布的對(duì)數(shù)似然。
上述的過(guò)程是基于DDPM這項(xiàng)研究展開(kāi)。
不過(guò)知乎用戶“我想唱high C”(TSAIL博士)認(rèn)為:
DDPM提出的時(shí)候,領(lǐng)域里的研究者其實(shí)并不完全清楚這個(gè)模型背后的數(shù)學(xué)原理,所以文章里的描述沒(méi)有探尋到更本質(zhì)的數(shù)學(xué)原理。
在他看來(lái),直到斯坦福大學(xué)Yang Song等在Score-Based Generative Modeling through Stochastic Differential Equations中,才首次揭示了diffusion model的連續(xù)版本對(duì)應(yīng)的數(shù)學(xué)背景。
并且將統(tǒng)計(jì)機(jī)器學(xué)習(xí)中的denoising score matching方法與DDPM中的去噪訓(xùn)練統(tǒng)一起來(lái)。
更多細(xì)節(jié)過(guò)程可以參考文末鏈接中的論文詳情。
那么接下來(lái)需要探討的一個(gè)問(wèn)題是:
為什么GAN這么快會(huì)被取代?
用OpenAI的一篇論文內(nèi)容來(lái)講,用Diffusion Model生成的圖像質(zhì)量明顯優(yōu)于GAN模型。
DALL·E是個(gè)多模態(tài)預(yù)訓(xùn)練大模型,“多模態(tài)”和“大”字都說(shuō)明,訓(xùn)練這個(gè)模型的數(shù)據(jù)集十分龐大冗雜。
發(fā)表這篇推特的Tom Goldstein教授提到,GAN模型訓(xùn)練過(guò)程有個(gè)難點(diǎn),就是眾多損失函數(shù)的鞍點(diǎn)(saddle-point)的最優(yōu)權(quán)重如何確定,這其實(shí)是個(gè)蠻復(fù)雜的數(shù)學(xué)問(wèn)題。
在多層深度學(xué)習(xí)模型的訓(xùn)練過(guò)程中,需通過(guò)多次反饋,直至模型收斂。
但在實(shí)際操作中發(fā)現(xiàn),損失函數(shù)往往不能可靠地收斂到鞍點(diǎn),導(dǎo)致模型穩(wěn)定性較差。即使有研究人員提出一些技巧來(lái)加強(qiáng)鞍點(diǎn)的穩(wěn)定性,但還是不足以解決這個(gè)問(wèn)題。
尤其面對(duì)更加復(fù)雜、多樣化的數(shù)據(jù),鞍點(diǎn)的處理就變得愈加困難了。
與GAN不同,DALL·E使用Diffusion Model,不用在鞍點(diǎn)問(wèn)題上糾結(jié),只需要去最小化一個(gè)標(biāo)準(zhǔn)的凸交叉熵?fù)p失(convex cross-entropy loss),而且人已經(jīng)知道如何使其穩(wěn)定。
這樣就大大簡(jiǎn)化了模型訓(xùn)練過(guò)程中,數(shù)據(jù)處理的難度。說(shuō)白了,就是用一個(gè)新的數(shù)學(xué)范式,從新穎的角度克服了一道障礙。
此外,GAN模型在訓(xùn)練過(guò)程中,除了需要“生成器”,將采樣的高斯噪聲映射到數(shù)據(jù)分布;還需要額外訓(xùn)練判別器,這就導(dǎo)致訓(xùn)練變得很麻煩了。
和GAN相比,Diffusion Model只需要訓(xùn)練“生成器”,訓(xùn)練目標(biāo)函數(shù)簡(jiǎn)單,而且不需要訓(xùn)練別的網(wǎng)絡(luò)(判別器、后驗(yàn)分布等),瞬間簡(jiǎn)化了一堆東西。
目前的訓(xùn)練技術(shù)讓Diffusion Model直接跨越了GAN領(lǐng)域調(diào)模型的階段,而是直接可以用來(lái)做下游任務(wù)。
△Diffusion Model直觀圖
從理論角度來(lái)看,Diffusion Model的成功在于訓(xùn)練的模型只需要“模仿”一個(gè)簡(jiǎn)單的前向過(guò)程對(duì)應(yīng)的逆向過(guò)程,而不需要像其它模型那樣“黑盒”地搜索模型。
并且,這個(gè)逆向過(guò)程的每一小步都非常簡(jiǎn)單,只需要用一個(gè)簡(jiǎn)單的高斯分布(q(x(t-1)| xt))來(lái)擬合。
這為Diffusion Model的優(yōu)化帶來(lái)了諸多便利,這也是它經(jīng)驗(yàn)表現(xiàn)非常好的原因之一。
Diffushion Model是否就是完美?
不見(jiàn)得。
從趨勢(shì)上來(lái)看,Diffushion Model領(lǐng)域確實(shí)正處于百花齊放的狀態(tài),但正如“我想唱high C”所述:
這個(gè)領(lǐng)域有一些核心的理論問(wèn)題還需要研究,這給我們這些做理論的人提供了個(gè)很有價(jià)值的研究?jī)?nèi)容。>
并且,哪怕對(duì)理論研究不感興趣,由于這個(gè)模型已經(jīng)很work了,它和下游任務(wù)的結(jié)合也才剛剛起步,有很多地方都可以趕緊占坑。我相信Diffusion Model的加速采樣肯定會(huì)在不久的將來(lái)徹底被解決,從而讓Diffusion Model占據(jù)深度生成模型的主導(dǎo)。
而對(duì)于Diffusion Model的有效性以及很快取代GAN這件事,馬毅教授認(rèn)為充分地說(shuō)明了一個(gè)道理:
幾行簡(jiǎn)單正確的數(shù)學(xué)推導(dǎo),可以比近十年的大規(guī)模調(diào)試超參調(diào)試網(wǎng)絡(luò)結(jié)構(gòu)有效得多。
不過(guò)對(duì)于這種“前浪推后浪”的火熱,馬毅教授也有不一樣的觀點(diǎn):
希望年輕的研究員端正研究的目的和態(tài)度,千萬(wàn)不要被目前熱的東西忽悠。
包括Diffusion Process,這其實(shí)也是好幾百年old的想法,只是老樹(shù)發(fā)新芽,找到新的應(yīng)用。
“我想唱high C”知乎回答:
https://www.zhihu.com/question/536012286/answer/2533146567
參考鏈接:
[1]https://twitter.com/tomgoldsteincs/status/1560334207578161152?s=21&t=QE8OFIwufZSTNi5bQhs0hQ
[2]https://www.zhihu.com/question/536012286
[3]https://arxiv.org/pdf/2105.05233.pdf
[4]https://arxiv.org/abs/1503.03585
[5]https://arxiv.org/abs/2006.11239
[6]https://arxiv.org/abs/2011.13456
[7]https://weibo.com/u/3235040884?topnav=1&wvr=6&topsug=1&is_all=1
- 商湯林達(dá)華萬(wàn)字長(zhǎng)文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計(jì),讓70年經(jīng)驗(yàn)“活”起來(lái)2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08