Stable Diffusion一周年:這份擴散模型編年簡史值得擁有
2020-2023
以下文章來源于別有一洞天,作者是來自北京理工大學(xué)的碩士研究生賴澤強(Zeqiang Lai)
編者按:今年ChatGPT/GPT-4大火,徹底開啟了AI新紀元,也點燃了通用人工智能的火花。
眾所周知,要想實現(xiàn)通用人工智能離不開多模態(tài),ChatGPT/GPT-4盡管在語言領(lǐng)域大放異彩,但一直遲遲沒有開放多模態(tài)功能。文生圖這座“金礦”則是屬于另一支故事線了,由“擴散模型”開啟。
一年前的今天,Stable Diffusion公開發(fā)布,集擴散模型之大成,也真正意義上從大眾層面開啟了AIGC時代。

而下面這篇文章全面總結(jié)了自2020年來擴散模型與AIGC的牽手歷程,從問世到Stable Diffusion開源再到最近研究,堪稱擴散模型編年簡史。
△圖片由擴散模型生成,截取自Midjourney showcase
目錄
1、序章
2、生成紀元
- “打基礎(chǔ)”的2020秋-2021年秋
- “百花齊放”的2021秋-2022年春
- “大步邁向大模型時代”:2022春-2022年秋
3、后生成紀元
- “軍備競賽啟動”:2022秋-2023年春
- “手慢無”:2023春-至今
4、下一步是什么?
5、冷知識
序章
AIGC(Artificial Intelligence Generated Content)這個概念,可以毫不夸張地稱之為本年度在人工智能領(lǐng)域內(nèi)圈內(nèi)乃至圈外最為火爆的一個話題。
對于一般大眾而言,AIGC的熱議熱潮,應(yīng)當(dāng)溯源至去年年底2022年,即Stable Diffusion的開源公布,以及隨之而來的一系列借助Stable Diffusion為基礎(chǔ)的工作。
這些成果使得人工智能繪畫領(lǐng)域呈現(xiàn)出前所未有的高品質(zhì)創(chuàng)作與創(chuàng)意,而開源工具Stable Diffusion WebUI和ComfyUI與商業(yè)化產(chǎn)品Midjourney的問世,則大幅降低了普羅大眾使用此類工具的門檻。
從技術(shù)角度來看,AI繪畫熱潮的興起要歸功于擴散模型的引入。然而,作為一項早在2015年于國際機器學(xué)習(xí)會議(ICML)上提出的理論構(gòu)想,其初現(xiàn)并未引起廣泛的關(guān)注。
直至2020年6月,來自加州大學(xué)伯克利分校的一篇題為DDPM去噪擴散概率模型的NeurIPS論文,在更加龐大的數(shù)據(jù)集上展現(xiàn)出與當(dāng)時最優(yōu)的生成對抗網(wǎng)絡(luò)(GAN)模型相媲美的性能,研究人員方才逐漸領(lǐng)悟到擴散模型在內(nèi)容創(chuàng)作領(lǐng)域所蘊藏的威力與前景。
生成紀元
“打基礎(chǔ)”的2020秋-2021年秋
自從DDPM問世以后,擴散模型在圖像生成領(lǐng)域緩緩地邁向成熟。盡管每個學(xué)術(shù)會議都會呈現(xiàn)一些相關(guān)研究,但這類論文的數(shù)量仍不多。
總的來說,這一階段研究主要還是在聚焦擴散模型的理論和實踐基礎(chǔ)上,這不僅包括以DDPM為代表的連續(xù)性擴散模型也包括了離散型的擴散模型。當(dāng)然,離散型和連續(xù)性擴散模型都已經(jīng)在2015的這篇論文中已經(jīng)出現(xiàn)了
連續(xù)型擴散模型
回到2020年的十月,斯坦福大學(xué)的研究人員Jiaming Song提出了DDIM(Diffusion Denoising Implicit Model),在提升了DDPM采樣效率的基礎(chǔ)上,僅用50步就能達到1000步采樣的效果。DDIM不僅實現(xiàn)了高效率的采樣方法,其作為確定性的采樣方法還為后續(xù)的研究開創(chuàng)了一種類似于GAN Invesion的方法,用于實現(xiàn)各種真實圖像的編輯與生成。
值得一提的是,DDIM的第一作者Jiaming Song與Yang Song出自同一研究組,而Yang Song則在同一時間段內(nèi)推動了擴散模型一體兩面的另一面,也即Score-based的研究。有趣的是,這兩種不同的研究角度也在Yang Song本人在2021年的2月份放出的ICLR一篇論文中得以統(tǒng)一。
接著,來到2021年的二月,OpenAI發(fā)布了“Improved Diffusion”:這篇論文提出了后來被廣泛采用的Cosine Noise Schedule,Importance sampling,以及Stride Sampling加速采樣等技術(shù)。
繼之而來的,是2021年五月OpenAI所發(fā)布的“Classifier Guidance”(亦被稱為Guided Diffusion)。這篇論文提出了一項重要的策略,即通過基于分類器的引導(dǎo)來指導(dǎo)擴散模型生成圖像。借助其他多項改進,擴散模型首次成功擊敗了生成領(lǐng)域的巨頭“GAN”,同時也為OpenAI的DALLE-2(一個圖像和文本生成模型)的發(fā)布奠定了基礎(chǔ)。
而后,來到2021年的十二月,DDPM的一作發(fā)布了“Classifier Free Guidance”:對“Classifier Guidance”進行了改進,使得擴散模型的引導(dǎo)過程僅需使用擴散模型本身,而不再需要依賴分類器進行實現(xiàn)。這一創(chuàng)新極大地豐富了擴散模型的應(yīng)用范圍與靈活性。
△圖像截取自Guide Diffusion
離散型擴散模型
在離散型擴散模型領(lǐng)域,在同一時間,也涌現(xiàn)出了一系列對后續(xù)工作具有很大影響的工作,例如:
- 于2021年2月發(fā)布的論文Multinomial Diffusion可謂是最早探索離散擴散模型的研究之一。該論文探討了離散擴散模型的形式與應(yīng)用。
- 于2021年7月發(fā)布的D3PM幾乎可以被視為后續(xù)所有離散擴散模型研究的理論基礎(chǔ)。這份論文內(nèi)容之豐富,以至于其中附錄的每一個章節(jié)都足以構(gòu)成一篇完整的論文。
- 于2021年7月發(fā)布的Insertion and Deletion Diffusion提出了一種非常有趣的加噪方法,但盡管創(chuàng)新,卻似乎未在學(xué)術(shù)界引起太大的震動。
- 于2021年8月發(fā)布的ImageBART將離散擴散模型應(yīng)用于大規(guī)模圖像生成,然而遺憾的是,它仍然采用自回歸模型的方式。
這些離散型擴散模型的探索為圖像生成領(lǐng)域帶來了新的思路與方法,雖然在某些方面取得了進展,但也有待進一步的發(fā)展和完善。
“百花齊放”的2021秋-2022年春
擴散模型采樣加速,各類“奇奇怪怪”的Diffusion Model,中等規(guī)模文生圖。
時間進入2021年秋,正逢ICLR和CVPR投稿。在本次CVPR中,我們迎來了“Stable Diffusion”的前身“Latent Diffusion”,還有那些為離散Diffusion做大做強的“VQ Diffusion”和“Unleashing Transformers”,以及離散進行到底的“MaskGIT”等一系列杰出的工作。
它們?nèi)缢鏉i漪般將擴散模型的局限性逐步推展,讓其在更大尺度、更高分辨率的數(shù)據(jù)集上展現(xiàn)出令人矚目的效果,至少從論文的角度來看,成就非凡。
然而,要真正讓這些擴散模型在學(xué)術(shù)界和工業(yè)界廣泛傳播以至于產(chǎn)生出圈的影響力,這個規(guī)模還不夠,人們還需等待。
與此同時,本次ICLR會議也見證了擴散模型理論上的一個重要里程碑,這是中國研究者為之付出巨大努力的成果。來自浙江大學(xué)的“PNDM”和清華朱軍團隊的“Analytic-DPM”,將擴散模型的采樣加速推向極致。
值得自豪的是,“Analytic-DPM”作為唯一一篇大陸單位獨立完成的工作,榮獲了ICLR 2022最佳論文獎項。當(dāng)然,國外的Google團隊也為大家?guī)砹嘶谟?xùn)練的快速采樣器“GGDM”和“Progressive Distillation”等創(chuàng)新工作。
除了這些,還有一項非常具有啟發(fā)性的工作《Label-Efficient Semantic Segmentation with Diffusion Models》,揭示了擴散模型的潛在空間蘊藏著的豐富語義信息。這或許將啟發(fā)了后續(xù)一系列基于使用擴散模型作為backbone以及利用注意力機制的圖像編輯技術(shù)以及擴散模型在感知領(lǐng)域的應(yīng)用。
在這個時間節(jié)點,擴散模型逐漸走入人們的視野,各大公眾平臺紛紛推出涉及它的文章,然而事實卻是,這類模型仍然主要停留在研究領(lǐng)域,尤其是在做圖像生成的圈子里。
主流的深度學(xué)習(xí)研究人員或許仍然沉浸在Vision Transformer所帶來的短暫火熱中,他們不知道的是,一場針對擴散模型的軍備競賽即將如同腥風(fēng)血雨般到來。
“大步邁向大模型時代”:2022春-2022年秋
Scale up!(放大?。?/p>
2022年的上半年,我們迎來了擴散模型的第一個出圈震撼。
四月,來自O(shè)penAI的DALLE-2橫空出世,通過利用擴散模型以及海量數(shù)據(jù),DALLE-2呈現(xiàn)出了前所未有的理解和創(chuàng)造能力。
一系列超現(xiàn)實主義作品通過OpenAI的開放API涌現(xiàn)而出,文生圖模型也開始在社交平臺上引起熱烈討論。
△圖像截取自DALLE-2
雖然在這個節(jié)點,非研究人員熟知的可能還是文生圖模型而非背后的擴散模型支柱。不過沒關(guān)系,DALLE-2的出圈一定程度上引起了更多研究人員對于擴散模型的關(guān)注度。
事實上,一場針對擴散模型的軍備競賽已然在NeurIPS 2022進行熱身!
在本次會議投稿周期:
- DALLE-2開放的不到一個月,來自谷歌的Imagen放出,取代DALLE-2成為了最先進的文生圖模型。(榮獲NeurIPS 2022 best paper)
- 針對擴散模型設(shè)計方案的討論以及改進的edm(榮獲NeurIPS 2022 best paper)。
- Stable Diffusion的基石Laion-5B發(fā)布(榮獲NeurIPS 2022 best paper)。
- 一系列探索擴散模型擴散形式的探索,Bit-Diffusion、Variational-Diffusion、Cold-Diffusion、Soft-Diffusion、Non-uniform Diffusion、Retrieval-Augmented Diffusion。
- 快速采樣的進一步發(fā)展:DPM-Solver、DFNO等。
- 更多的應(yīng)用:做3D生成的DreamFusion(榮獲ICLR 2023 Best Paper),做視頻生成的Video Diffusion,做圖像重建的DDRM等。
在這一階段,擴散模型本身的理論和設(shè)計邊界被極大地探索與擴寬,為下半年爆發(fā)性出現(xiàn)的下游應(yīng)用進一步奠定了基礎(chǔ)。
△圖片截取自DreamFusion
后生成紀元
“軍備競賽啟動”:2022秋-2023年春
Diffusion Model+Anything!(擴散模型+任何東西!)
2022年的下半年注定是擴散模型發(fā)展最為迅猛和關(guān)鍵的半年。在經(jīng)過前一年的不懈探索后,擴散模型的理論研究逐漸平穩(wěn),研究的方向逐步轉(zhuǎn)向了大規(guī)模的應(yīng)用實踐。在這半年,在這段時間里,我們見證了眾多領(lǐng)域的突破性應(yīng)用,包括但不限于:
- Image Restoration的爆發(fā)應(yīng)用:Equilibrium Diffusion、Shadow Diffusion、DDNM、Rain Diffusion。
- Image Perception的初步嘗試:DiffusionDet、Pix2Seq-D、DiffusionInst、MAGE、Peekaboo、ODISE、DDPS、DDP。
- 文本生成領(lǐng)域的探索:Diffusion-LM、Diffusion-Seq、DDCap、UniD3。
- 3D生成上的進一步探索:Render3D、Magic3D、Point-E、MeshDiffusion。
- 視頻生成的進一步探索:Latent Video Diffusion、Video Fusion
- 醫(yī)學(xué)圖像上的探索:MedSegDiff。
- 圖像編輯上的探索:
- 1)Text-driven(文本驅(qū)動):Prompt-to-prompt、Imagic、InstructPix2Pix、Textual Inversion。
- 2)Subject-driven(對象驅(qū)動):Dreambooth、Paint by Example。
- Stable Diffusion release
- 1)2022-8-22:initial release(初始版本)
2)2022-12-7:v2.1 release(v2.1發(fā)布)
大規(guī)模的應(yīng)用嘗試是這一階段的主旋律,而隨著Stable Diffusion的開放,文生圖模型再度出圈,擴散模型逐漸被大眾所熟知,而后續(xù)一系列基于Stable Diffusion的工作也將如雨后春筍般到來。
這些工作涵蓋了圖像編輯、更為強大的3D生成等領(lǐng)域,將圖像生成再度推進,使其更加貼近人類需求。
△圖片截取自Stable Diffusion v2
“手慢無”:2023春-至今
可控圖像生成與編輯是這一階段的主旋律,這催生了非常非常多的工作,在這個階段,幾乎每天都有新的論文和Demo放出,論文轟炸之快,瞠目結(jié)舌。

△圖片截取自Stable Diffusion 2
總的來說,這一階段的2D圖像的工作主要集中在(包括但不限于):
1、Controllable Image Generation(可控的圖像生成)
廣義上,可控生成包括了下面描述的許多子問題。在這里,我們主要將其限定在如何在文生圖的基礎(chǔ)加入額外的如語義分割圖,深度圖做引導(dǎo)的圖像生成,這通常也被稱之為Grounded Generation、Layout-driven Generation等。
典型的工作包括GLIGEN、ControlNet和T2I Adapter。其中最為火爆的當(dāng)屬ControlNet,它的出現(xiàn)加上基于Lora的定制化,使得擴散模型成為了繪畫圈和動漫圈的一個重磅炸彈。
△圖片來自ControlNet
2、Subject|Concept–driven/Exemplar-based Image Editing(對象(概念)驅(qū)動的/基于示例的圖像編輯)
Subject-driven Image Generation這個任務(wù)指的是,希望生成的圖像包含給定的物體,比如說給一張一只狗的照片,我們希望生成包含這只狗的其他照片。
這個方向最出名的工作當(dāng)屬DreamBooth,它榮獲CVPR 2023的best paper Honorable Mention,與此同時,也是火熱的Lora定制化的基礎(chǔ)算法。除此之外,后續(xù)還有一系列工作:
- 如防止模型生成某些 concept,例如裸體,敏感照片的Erasing Concepts from Diffusion Models
- 在一張圖片中同時生成編碼多個concept的FastComposer、Mix of Show、Cone2、SVDiff
- 在一張圖片中插入新物體的(帶Grounding信息)的DreamEdit、Anydoor
△圖片截取自Anydoor
3、Text-driven Image Editing(文本驅(qū)動的圖像編輯)
基于文本的圖像編輯也是一個重要的研究方向。對于這個任務(wù),我們的需求通常是給定一個生成好的圖文對,我們編輯文字,再通過一些方法,能夠?qū)σ呀?jīng)生成的圖像進行編輯。例如把“一只狗”換成“一只貓”或者強化某些詞的權(quán)重等。典型的工作包括:
- 前一個階段就已經(jīng)出現(xiàn)的Prompt-to-prompt、Imagic、InstructPix2Pix、Textual Inversion。
- 這個階段的新工作pix2pix-zero、SEGA、MastCtrl。
△圖片來自InstructPix2Pix
4、Image Inpainting/Outpainting(圖像修復(fù)/擴展)
Inpainting通常是指將某一塊區(qū)域的物體移除或者替換成其他物體,outpainting則是希望將圖像外圍進行補全。擴散模型的出現(xiàn)也極大改善了這類任務(wù)的性能,一些典型工作包括Repaint、SmartBrush等。
△圖片來自SmartBrush
5、Style Transfer(風(fēng)格遷移)
也有一些工作利用擴散模型做風(fēng)格遷移,如StyleDrop和BLIP-Diffusion。
△圖片來自StyleDrop
6、Point-based Interactive Image Editing(基于點的交互式圖像編輯)
最近特別火熱的DragGAN也帶火了交互式圖形編輯,Diffusion方向follow的工作有DragDiffusion、DragonDiffusion以及FreeDrag。
△圖片來自DragGAN
這一階段誕生了非常非常多很有意思的工作,但從使用的技術(shù)上基本可以總結(jié)為:
Attention Control(即通過修改注意力實現(xiàn)編輯,圖文對齊等目的,例如Prompt2Prompt,Attend and Excite等);
Layer Injection(即通過插入一些層實現(xiàn)額外的輸入控制,例如ControlNet);
Finetue(通過Test-time或Training time的Finetune實現(xiàn),例如DreamBooth和InstructPix2Pix);
Textual Inversion(通過修改text embedding)等。
下一步是什么?
截止到2023年8月,擴散模型距離DDPM發(fā)表已經(jīng)過去了2年10個月,距離Stable DIffusion發(fā)布也過去了1年。
這一年來的高速發(fā)展誕生了數(shù)不勝數(shù)的爆款?;跀U散模型的生成式工具,包括但不限于圖像生成,音樂生成,視頻生成,3D資產(chǎn)生成,骨骼動作生成等,也逐步走入了設(shè)計師以及大眾的工作流,并切切實實地改善著廣大打工人的工作效率。
盡管如此,當(dāng)前的諸多工具仍不完美,不管是在學(xué)術(shù)上的研究還是工程上的落地上仍然具有很多改進的空間。
典型的議題包括但不限于,如何讓生成的圖像更加符合文本?如何改進模型使得不需要黑魔法般的Prompt也能生成高質(zhì)量的圖片?如何做更加可控的生成,實現(xiàn)個性化物體的加入,指定風(fēng)格,指定位置?如何對不滿意的生成結(jié)果進行編輯同時保持前后高度的一致性?如何進一步改善生成式模型對硬件的需求?等。
這里提到的許多議題在現(xiàn)有工作中可能均有涉及,但這些議題的Stable Diffusion時刻可能仍未到來。
過去的一年是激動人心的,ChatGPT和Stable Diffusion的發(fā)布為人類邁向通用人工智能(AGI)邁出了重要的一步,而接下來迎接我們的仍將是令人期待和興奮的后GPT時代。
盡管當(dāng)前全球面臨著諸如經(jīng)濟下行,區(qū)域沖突,去全球化等的發(fā)展難題,盡管黃仁勛把家里所有煤氣灶都交出來也解決不了計算資源短缺的問題,但幸運的是,在這個星球上,我們?nèi)匀挥兄鵁o數(shù)出色的研究人員在默默耕耘,在朝著實現(xiàn)AGI的理想奮斗。
或許在不遠的將來,AGI真的能成為有生之年,誰知道呢?
“The Best Way to Predict the Future is to Create it.”——P.Drucker&A.Lincoln.
(“預(yù)測未來的最好方法是創(chuàng)造它”——P.德魯克和A.林肯。)
冷知識
截止至2023年8月,擴散模型已經(jīng)斬獲各個會議共10篇Best Paper Award、Honorable Mention和Award Nomination:
ICLR 2021(Outstanding Paper Award)-Score-Based Generative Modeling through Stochastic Differential Equations。ICLR 2021杰出論文獎-基于分數(shù)的隨機微分方程生成建模
ICLR 2022(Outstanding Paper Award)-Analytic-DPM:an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models。ICLR 2022杰出論文獎-解析DPM:擴散概率模型中最優(yōu)逆方差的分析估計。
NeurIPS 2022(Outstanding Paper Award)-Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding。NeurIPS 2022杰出論文獎-具有深刻語言理解的逼真文本到圖像擴散模型。
NeurIPS 2022(Outstanding Paper Award)-Elucidating the Design Space of Diffusion-Based Generative Models。NeurIPS 2022杰出論文獎-闡明基于擴散的生成模型的設(shè)計空間
NeurIPS 2022(Outstanding Paper Award)-LAION-5B: An open large-scale dataset for training next-generation image-text models。NeurIPS 2022杰出論文獎-LAION-5B:用于訓(xùn)練下一代圖像文本模型的開放大規(guī)模數(shù)據(jù)集。
ICLR 2023(Outstanding Paper Award)-DreamFusion: Text-to-3D using 2D Diffusion。ICLR 2023杰出論文獎-DreamFusion:使用 2D 擴散將文本轉(zhuǎn)換為 3D
CVPR 2023(Award Nomination)-On Distillation of Guided Diffusion Models。CVPR 2023獎項提名-關(guān)于引導(dǎo)擴散模型的蒸餾。
CVPR 2023(Honorable Mention)-DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation。CVPR 2023榮譽獎-DreamBooth:微調(diào)文本到圖像擴散模型以實現(xiàn)主題驅(qū)動生成。
SIGGRAPH 2023(Honorable Mention)-GestureDiffuCLIP: Gesture Diffusion Model With CLIP Latents。SIGGRAPH 2023榮譽獎-GestureDiffuCLIP:具有CLIP潛伏的手勢擴散模型。
SIGGRAPH 2023(Honorable Mention)-Word-as-image for Semantic Typography。SIGGRAPH 2023榮譽獎-語義排版的單詞即圖像
- 多人有聲視頻一體化生成!用百度最新AI生成營銷視頻,現(xiàn)在1.4元/5秒2025-08-22
- 馬斯克一覺醒來,Space X在京開賣了2025-08-21
- 離譜!現(xiàn)在的Agent都卷成100個成團了?3分鐘并行干完5個復(fù)雜任務(wù),還能隨時改需求2025-08-18
- 國家級AI創(chuàng)新應(yīng)用賽事殺瘋了!超200萬元獎金池+全場景賽道,沖線團隊速來2025-08-15