OpenAI又出了一個(gè)文本生成圖像模型,參數(shù)比DALL·E少85億,質(zhì)量卻更逼真|可試玩
年初DALL·E,年末GLIDE
OpenAI剛剛推出了一個(gè)新的文本生成圖像模型,名叫GLIDE。
相比今年年初誕生的大哥DALL·E,它只有35億參數(shù)(DALL·E有120億)。
規(guī)模雖然小了,質(zhì)量卻不賴(lài)。
大家仔細(xì)看這效果,“使用計(jì)算器的刺猬”、“星空下的狐貍”、“彩色玻璃窗風(fēng)格的熊貓吃竹子”、“太空升降艙蠟筆畫(huà)”:
是不是很像樣兒?
一位碼農(nóng)兼藝術(shù)家的網(wǎng)友則形容它“和真的難以區(qū)分”。
GLIDE在人類(lèi)評(píng)估員的打分中,確實(shí)PK掉了使用CLIP給圖片排序的DALL·E。
最有趣的是,這個(gè)GLIDE似乎具有“智力”——會(huì)否決你畫(huà)出八條腿的貓的主意,也不認(rèn)為老鼠可以捕食獅子。
OpenAI歲末新作GLIDE
GLIDE全稱(chēng)Guided?Language to?Image?Diffusion for?Generation and?Editing,是一種擴(kuò)散模型?(diffusion model)。
擴(kuò)散模型最早于2015提出,它定義了一個(gè)馬爾可夫鏈,用于在擴(kuò)散步驟中緩慢地向數(shù)據(jù)添加隨機(jī)噪聲,然后通過(guò)學(xué)習(xí)逆轉(zhuǎn)擴(kuò)散過(guò)程從噪聲中構(gòu)建所需的數(shù)據(jù)樣本。
相比GAN、VAE和基于流的生成模型,擴(kuò)散模型在性能上有不錯(cuò)的權(quán)衡,最近已被證明在圖像生成方面有很大的潛力,尤其是與引導(dǎo)結(jié)合來(lái)兼得保真度和多樣性。
△擴(kuò)散模型與其他三種生成模型的對(duì)比
研究人員訓(xùn)練了一個(gè)64×64分辨率的文本條件擴(kuò)散模型,參數(shù)35億;以及一個(gè)256×256分辨率的文本條件上采樣擴(kuò)散模型,參數(shù)15億。
模型有兩種引導(dǎo)形式來(lái)獲得更好的生成效果:無(wú)分類(lèi)器引導(dǎo)(classifier-free guidance)和CLIP引導(dǎo)。
對(duì)于CLIP引導(dǎo),他們還訓(xùn)練了一個(gè)噪聲感知的64×64 ViT-L CLIP模型 (vit)。
模型采用了SOTA論文《Improved Denoising Diffusion Probabilistic Models》(改進(jìn)的去噪擴(kuò)散概率模型)的架構(gòu),使用文本條件信息對(duì)其進(jìn)行增強(qiáng)。
對(duì)于每個(gè)帶噪圖像xt和相應(yīng)的提示文本caption,該模型預(yù)測(cè)出p(xt-1|xt,caption)。
為了對(duì)文本進(jìn)行條件處理,模型還將文本編碼為K個(gè)token的序列,并將這些token饋送到Transformer中,此Transformer的輸出有兩個(gè)用處:
1、在ADM模型中使用最終token embedding來(lái)代替class embedding;
2、token embedding的最后一層在整個(gè)ADM模型中分別映射每個(gè)注意層的維度,然后連接到每個(gè)層的注意上下文。
研究人員在與DALL·E相同的數(shù)據(jù)集上訓(xùn)練GLIDE,batch size為2048,共經(jīng)過(guò)250萬(wàn)次迭代;對(duì)于上采樣模型,則進(jìn)行了batch size為512的160萬(wàn)次迭代。
這些模型訓(xùn)練穩(wěn)定,總訓(xùn)練計(jì)算量大致等于DALL·E。
在初始訓(xùn)練完成之后,研究人員還微調(diào)了基礎(chǔ)模型以支持無(wú)條件圖像生成。
訓(xùn)練過(guò)程與預(yù)訓(xùn)練完全一樣,只是將20%的文本token序列替換為空序列。這樣模型就能既保留文本條件生成的能力,也可以無(wú)條件生成。
為了讓GLIDE在圖像編輯任務(wù)中產(chǎn)生不必要的偽影,研究人員在微調(diào)時(shí)將GLIDE訓(xùn)練樣本的隨機(jī)區(qū)域擦除,其余部分與掩碼通道一起作為附加條件信息輸入模型。
相比DALL·E,GLIDE的效果更逼真
- 定性實(shí)驗(yàn)
研究人員首先比較了GLIDE兩種不同的引導(dǎo)策略:CLIP引導(dǎo)和無(wú)分類(lèi)器引導(dǎo)。
分別用XMC-GAN、DALL·E(使用CLIP重排256個(gè)樣本,從中選擇最佳結(jié)果)和CLIDE模型(CLIP引導(dǎo)/無(wú)分類(lèi)器引導(dǎo))在相同的文本條件下生成了一些結(jié)果。
CLIDE模型的結(jié)果未經(jīng)挑選。
可以發(fā)現(xiàn),無(wú)分類(lèi)器引導(dǎo)的樣本通常比CLIP引導(dǎo)的看起來(lái)更逼真,當(dāng)然,兩者都勝過(guò)了DALL·E。
對(duì)于復(fù)雜的場(chǎng)景,CLIDE可以使用修復(fù)功能進(jìn)行迭代生成:比如下圖就是先生成一個(gè)普通客廳,再加畫(huà)、加茶幾、加花瓶……
此外,CLIDE還可以在SDedit模型上利用草圖與文本相結(jié)合的方式,對(duì)圖像進(jìn)行更多受控修改。
- 定量實(shí)驗(yàn)
研究人員首先通過(guò)衡量質(zhì)量和保真度的帕累托邊界(Pareto frontier)來(lái)評(píng)估無(wú)分類(lèi)引導(dǎo)和CLIP引導(dǎo)之間的差異。
在前兩組曲線中,可以發(fā)現(xiàn)無(wú)分類(lèi)器引導(dǎo)幾乎都是最優(yōu)的——不管是在準(zhǔn)確率/召回率上,還是在IS/FID距離上。
而在繪制CLIP分?jǐn)?shù)與FID的關(guān)系時(shí),出現(xiàn)了完全相反的趨勢(shì)。
研究人員假設(shè)這是CLIP引導(dǎo)正在為評(píng)估CLIP模型尋找對(duì)抗性示例,而并非真正優(yōu)于無(wú)分類(lèi)器引導(dǎo)。為了驗(yàn)證這一假設(shè),他們聘請(qǐng)了人工評(píng)估員來(lái)判斷生成圖像的質(zhì)量。
在這個(gè)過(guò)程中,人類(lèi)評(píng)估者會(huì)看到兩個(gè)256×256的圖像,選擇哪個(gè)樣本更好地匹配給定文本或看起來(lái)更逼真。如果實(shí)在分辨不出,每個(gè)模型各得一半分?jǐn)?shù)。
結(jié)果如下:
無(wú)分類(lèi)器引導(dǎo)產(chǎn)生了更符合相應(yīng)提示的高質(zhì)量樣本。
同時(shí),研究人員也將CLIDE與其他生成模型的質(zhì)量進(jìn)行了評(píng)估:CLIDE獲得了最有競(jìng)爭(zhēng)力的FID分?jǐn)?shù)。
再將GLIDE與DALL-E進(jìn)行人工評(píng)估。
包含三種比法:兩種模型都不使用CLIP重排序;僅對(duì)DALL·E使用CLIP重排序;對(duì)DALL-E使用CLIP重排序,并通過(guò)DALL-E使用的離散VAE映射GLIDE樣本。
結(jié)果是不管哪種配置,人類(lèi)評(píng)估員都更傾向于GLIDE的結(jié)果(每項(xiàng)第一行代表GLIDE)。
當(dāng)然,說(shuō)這么多,GLIDE也有它的不足,就如開(kāi)頭的例子,它沒(méi)法畫(huà)出不合常理的“八條腿的貓”,也就是有智力但缺乏想象力。
此外,未優(yōu)化的GLIDE需要15秒才能在單張A100 GPU上生成一張圖像,這比GAN慢多了。
最后,po一張我們?cè)诠俜桨l(fā)布的Colab鏈接上親手試的一張效果,還湊合(an illustration of a rabbit,demo上的模型比較?。?/p>
論文地址:
https://arxiv.org/abs/2112.10741
GitHub地址(是一個(gè)在過(guò)濾后的數(shù)據(jù)集上訓(xùn)練的小模型):
https://github.com/openai/glide-text2im
Colab試玩:
https://colab.research.google.com/github/openai/glide-text2im/blob/main/notebooks/text2im.ipynb#scrollTo=iuqVCDzbP1F0
- 北大開(kāi)源最強(qiáng)aiXcoder-7B代碼大模型!聚焦真實(shí)開(kāi)發(fā)場(chǎng)景,專(zhuān)為企業(yè)私有部署設(shè)計(jì)2024-04-09
- 剛剛,圖靈獎(jiǎng)揭曉!史上首位數(shù)學(xué)和計(jì)算機(jī)最高獎(jiǎng)“雙料王”出現(xiàn)了2024-04-10
- 8.3K Stars!《多模態(tài)大語(yǔ)言模型綜述》重大升級(jí)2024-04-10
- 谷歌最強(qiáng)大模型免費(fèi)開(kāi)放了!長(zhǎng)音頻理解功能獨(dú)一份,100萬(wàn)上下文敞開(kāi)用2024-04-10