Stable Diffusion火到被藝術(shù)家集體舉報(bào),網(wǎng)友科普背后機(jī)制被LeCun點(diǎn)贊
又是擴(kuò)散模型
白交 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
免費(fèi)開源的Stable Diffusion太火了!
有人拿它來(lái)做視頻短片,幾分鐘內(nèi)穿越時(shí)間看遍地球萬(wàn)物的演變。
,時(shí)長(zhǎng)02:19
還有人拿它來(lái)制作守望先鋒里的英雄。
甚至因?yàn)槭褂眠^(guò)于泛濫,牽涉到藝術(shù)版權(quán)的問(wèn)題,一群藝術(shù)家們還吵了起來(lái),并把一個(gè)非官方賬號(hào)舉報(bào)到封號(hào)。
這背后究竟是如何運(yùn)作的,才能形成如此驚人的反響?
這幾天,有位小哥分享了Stable Diffusion工作機(jī)制的線程,還被LeCun點(diǎn)了贊。
來(lái)看看究竟說(shuō)了啥。
又是擴(kuò)散模型
首先,從名字Stable Diffusion就可以看出,這個(gè)主要采用的擴(kuò)散模型(Diffusion Model)。
簡(jiǎn)單來(lái)說(shuō),擴(kuò)散模型就是去噪自編碼器的連續(xù)應(yīng)用,逐步生成圖像的過(guò)程。
一般所言的擴(kuò)散,是反復(fù)在圖像中添加小的、隨機(jī)的噪聲。而擴(kuò)散模型則與這個(gè)過(guò)程相反——將噪聲生成高清圖像。訓(xùn)練的神經(jīng)網(wǎng)絡(luò)通常為U-net。
不過(guò)因?yàn)槟P褪侵苯釉谙袼乜臻g運(yùn)行,導(dǎo)致擴(kuò)散模型的訓(xùn)練、計(jì)算成本十分昂貴。
基于這樣的背景下,Stable Diffusion主要分兩步進(jìn)行。
首先,使用編碼器將圖像x壓縮為較低維的潛在空間表示z(x)。
其中上下文(Context)y,即輸入的文本提示,用來(lái)指導(dǎo)x的去噪。
它與時(shí)間步長(zhǎng)t一起,以簡(jiǎn)單連接和交叉兩種方式,注入到潛在空間表示中去。
隨后在z(x)基礎(chǔ)上進(jìn)行擴(kuò)散與去噪。換言之, 就是模型并不直接在圖像上進(jìn)行計(jì)算,從而減少了訓(xùn)練時(shí)間、效果更好。
值得一提的是,Stable DIffusion的上下文機(jī)制非常靈活,y不光可以是圖像標(biāo)簽,就是蒙版圖像、場(chǎng)景分割、空間布局,也能夠相應(yīng)完成。
霸占GitHub熱榜第一
這個(gè)平臺(tái)一開源,就始終霸占GitHub熱榜第一,目前已累計(jì)2.9k星。
它是由慕尼黑大學(xué)機(jī)器視覺與學(xué)習(xí)研究小組和Runway的研究人員,基于CVPR2022的一篇論文《High-Resolution Image Synthesis with Latent Diffusion Models》,并與其他社區(qū)團(tuán)隊(duì)合作開發(fā)的一款開源模型。
據(jù)官方介紹,它能在幾秒內(nèi)在消費(fèi)級(jí)CPU上運(yùn)行創(chuàng)作,也無(wú)需進(jìn)行任何預(yù)處理和后處理。
核心數(shù)據(jù)集是LAION-5B的一個(gè)子集,它是專為基于CLIP的新模型而創(chuàng)建。
同時(shí),它也是首個(gè)在4000個(gè)A100 Ezra-1 AI超大集群上進(jìn)行訓(xùn)練的文本轉(zhuǎn)圖像模型。
不管怎么說(shuō),在文本生成圖像這一趴,又多了一位實(shí)力強(qiáng)勁的明星了。(狗頭)
GitHub鏈接:
https://github.com/CompVis/latent-diffusion
參考鏈接:
[1]https://twitter.com/ai__pub/status/1561362542487695360
[2]https://stability.ai/blog/stable-diffusion-announcement
[3]https://arxiv.org/abs/2112.10752
- 英偉達(dá)最新芯片B30A曝光2025-08-20
- AI應(yīng)用如何落地政企?首先不要卷通用大模型2025-08-12
- 本科必學(xué)Dijkstra算法被超越!清華段然團(tuán)隊(duì)打破圖靈獎(jiǎng)得主證明的普遍最優(yōu)性2025-08-09
- 智能體邁入L4 時(shí)代!納米AI多智能體蜂群,可創(chuàng)作最長(zhǎng)10分鐘AI視頻2025-08-06