Diffusion Model一發(fā)力,GAN就過時了???
馬毅:千萬不要被目前熱的東西忽悠
金磊 Alex 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
曾經(jīng)大紅大紫的GAN已過時。
馬里蘭大學(xué)副教授Tom Goldstein最近發(fā)表的一個推文,可謂是一石激起千層浪。
就連科技圈的大佬們也紛紛前來關(guān)注:
話題里“劍指”的關(guān)鍵詞則是Diffusion Model,用Tom的話來說就是:
在2021年,它甚至可以說是聞所未聞。
但其實(shí)這個算法并不陌生,因?yàn)樗茿I作畫神器DALL·E的核心。
而且DALL·E的作者打一開始就“沒看上”GAN,直接將其放棄。
無獨(dú)有偶,同樣的話題在國內(nèi)也引發(fā)了不小的討論:
那么圖像生成領(lǐng)域的這波“后浪推前浪”,究竟是為何?
咱們這就來盤一盤。
什么是Diffusion Model?
Diffusion Model這次被拉進(jìn)聚光燈之下,不得不歸功于各類“AI一句話作圖”神器的火爆。
例如OpenAI家的DALL·E 2:
谷歌家的Imagen:
不難看出,這些近期大流行的圖像生成神器,不論是真實(shí)程度亦或是想象、理解能力,都是比較符合人類的預(yù)期。
因此它們也成為了這屆網(wǎng)友們把玩的“新寵”(當(dāng)年GAN出道的時候也是被玩壞了)。
而如此能力背后的關(guān)鍵,便是Diffusion Model。
它的研究最早可以追溯到2015年,當(dāng)時,斯坦福和伯克利的研究人員發(fā)布了一篇名為Deep Unsupervised Learning using Nonequilibrium Thermodynamics的論文:
但這篇研究和目前的Diffusion Model非常不一樣;而真正使其發(fā)揮作用的研究是2020年,一項(xiàng)名為Denoising Diffusion Probabilistic Models的研究:
我們可以先來看一下各類生成模型之間的對比:
不難看出,Diffusion Model和其它模型的不同點(diǎn)在于,它的latent code(z)和原圖是同尺寸大小的。
若是簡單來概括Diffusion Model,就是存在一系列高斯噪聲(T輪),將輸入圖片x0變?yōu)榧兏咚乖肼晉T。
再細(xì)分來看,Diffusion Model首先包含一個前向過程(Forward diffusion process)。
這個過程的目的,就是往圖片上添加噪聲;但在這一步中還無法實(shí)現(xiàn)圖片生成。
其次是一個逆向過程(Reverse diffusion process),這個過程可以理解為Diffusion的去噪推斷過程。
最后在訓(xùn)練階段,則是通過對真實(shí)數(shù)據(jù)分布下,最大化模型預(yù)測分布的對數(shù)似然。
上述的過程是基于DDPM這項(xiàng)研究展開。
不過知乎用戶“我想唱high C”(TSAIL博士)認(rèn)為:
DDPM提出的時候,領(lǐng)域里的研究者其實(shí)并不完全清楚這個模型背后的數(shù)學(xué)原理,所以文章里的描述沒有探尋到更本質(zhì)的數(shù)學(xué)原理。
在他看來,直到斯坦福大學(xué)Yang Song等在Score-Based Generative Modeling through Stochastic Differential Equations中,才首次揭示了diffusion model的連續(xù)版本對應(yīng)的數(shù)學(xué)背景。
并且將統(tǒng)計(jì)機(jī)器學(xué)習(xí)中的denoising score matching方法與DDPM中的去噪訓(xùn)練統(tǒng)一起來。
更多細(xì)節(jié)過程可以參考文末鏈接中的論文詳情。
那么接下來需要探討的一個問題是:
為什么GAN這么快會被取代?
用OpenAI的一篇論文內(nèi)容來講,用Diffusion Model生成的圖像質(zhì)量明顯優(yōu)于GAN模型。
DALL·E是個多模態(tài)預(yù)訓(xùn)練大模型,“多模態(tài)”和“大”字都說明,訓(xùn)練這個模型的數(shù)據(jù)集十分龐大冗雜。
發(fā)表這篇推特的Tom Goldstein教授提到,GAN模型訓(xùn)練過程有個難點(diǎn),就是眾多損失函數(shù)的鞍點(diǎn)(saddle-point)的最優(yōu)權(quán)重如何確定,這其實(shí)是個蠻復(fù)雜的數(shù)學(xué)問題。
在多層深度學(xué)習(xí)模型的訓(xùn)練過程中,需通過多次反饋,直至模型收斂。
但在實(shí)際操作中發(fā)現(xiàn),損失函數(shù)往往不能可靠地收斂到鞍點(diǎn),導(dǎo)致模型穩(wěn)定性較差。即使有研究人員提出一些技巧來加強(qiáng)鞍點(diǎn)的穩(wěn)定性,但還是不足以解決這個問題。
尤其面對更加復(fù)雜、多樣化的數(shù)據(jù),鞍點(diǎn)的處理就變得愈加困難了。
與GAN不同,DALL·E使用Diffusion Model,不用在鞍點(diǎn)問題上糾結(jié),只需要去最小化一個標(biāo)準(zhǔn)的凸交叉熵?fù)p失(convex cross-entropy loss),而且人已經(jīng)知道如何使其穩(wěn)定。
這樣就大大簡化了模型訓(xùn)練過程中,數(shù)據(jù)處理的難度。說白了,就是用一個新的數(shù)學(xué)范式,從新穎的角度克服了一道障礙。
此外,GAN模型在訓(xùn)練過程中,除了需要“生成器”,將采樣的高斯噪聲映射到數(shù)據(jù)分布;還需要額外訓(xùn)練判別器,這就導(dǎo)致訓(xùn)練變得很麻煩了。
和GAN相比,Diffusion Model只需要訓(xùn)練“生成器”,訓(xùn)練目標(biāo)函數(shù)簡單,而且不需要訓(xùn)練別的網(wǎng)絡(luò)(判別器、后驗(yàn)分布等),瞬間簡化了一堆東西。
目前的訓(xùn)練技術(shù)讓Diffusion Model直接跨越了GAN領(lǐng)域調(diào)模型的階段,而是直接可以用來做下游任務(wù)。
△Diffusion Model直觀圖
從理論角度來看,Diffusion Model的成功在于訓(xùn)練的模型只需要“模仿”一個簡單的前向過程對應(yīng)的逆向過程,而不需要像其它模型那樣“黑盒”地搜索模型。
并且,這個逆向過程的每一小步都非常簡單,只需要用一個簡單的高斯分布(q(x(t-1)| xt))來擬合。
這為Diffusion Model的優(yōu)化帶來了諸多便利,這也是它經(jīng)驗(yàn)表現(xiàn)非常好的原因之一。
Diffushion Model是否就是完美?
不見得。
從趨勢上來看,Diffushion Model領(lǐng)域確實(shí)正處于百花齊放的狀態(tài),但正如“我想唱high C”所述:
這個領(lǐng)域有一些核心的理論問題還需要研究,這給我們這些做理論的人提供了個很有價(jià)值的研究內(nèi)容。>
并且,哪怕對理論研究不感興趣,由于這個模型已經(jīng)很work了,它和下游任務(wù)的結(jié)合也才剛剛起步,有很多地方都可以趕緊占坑。我相信Diffusion Model的加速采樣肯定會在不久的將來徹底被解決,從而讓Diffusion Model占據(jù)深度生成模型的主導(dǎo)。
而對于Diffusion Model的有效性以及很快取代GAN這件事,馬毅教授認(rèn)為充分地說明了一個道理:
幾行簡單正確的數(shù)學(xué)推導(dǎo),可以比近十年的大規(guī)模調(diào)試超參調(diào)試網(wǎng)絡(luò)結(jié)構(gòu)有效得多。
不過對于這種“前浪推后浪”的火熱,馬毅教授也有不一樣的觀點(diǎn):
希望年輕的研究員端正研究的目的和態(tài)度,千萬不要被目前熱的東西忽悠。
包括Diffusion Process,這其實(shí)也是好幾百年old的想法,只是老樹發(fā)新芽,找到新的應(yīng)用。
“我想唱high C”知乎回答:
https://www.zhihu.com/question/536012286/answer/2533146567
參考鏈接:
[1]https://twitter.com/tomgoldsteincs/status/1560334207578161152?s=21&t=QE8OFIwufZSTNi5bQhs0hQ
[2]https://www.zhihu.com/question/536012286
[3]https://arxiv.org/pdf/2105.05233.pdf
[4]https://arxiv.org/abs/1503.03585
[5]https://arxiv.org/abs/2006.11239
[6]https://arxiv.org/abs/2011.13456
[7]https://weibo.com/u/3235040884?topnav=1&wvr=6&topsug=1&is_all=1
- 商湯林達(dá)華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計(jì),讓70年經(jīng)驗(yàn)“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08