OpenAI又出了一個文本生成圖像模型,參數(shù)比DALL·E少85億,質(zhì)量卻更逼真|可試玩
年初DALL·E,年末GLIDE
OpenAI剛剛推出了一個新的文本生成圖像模型,名叫GLIDE。
相比今年年初誕生的大哥DALL·E,它只有35億參數(shù)(DALL·E有120億)。
規(guī)模雖然小了,質(zhì)量卻不賴。
大家仔細看這效果,“使用計算器的刺猬”、“星空下的狐貍”、“彩色玻璃窗風格的熊貓吃竹子”、“太空升降艙蠟筆畫”:
是不是很像樣兒?
一位碼農(nóng)兼藝術家的網(wǎng)友則形容它“和真的難以區(qū)分”。
GLIDE在人類評估員的打分中,確實PK掉了使用CLIP給圖片排序的DALL·E。
最有趣的是,這個GLIDE似乎具有“智力”——會否決你畫出八條腿的貓的主意,也不認為老鼠可以捕食獅子。
OpenAI歲末新作GLIDE
GLIDE全稱Guided?Language to?Image?Diffusion for?Generation and?Editing,是一種擴散模型?(diffusion model)。
擴散模型最早于2015提出,它定義了一個馬爾可夫鏈,用于在擴散步驟中緩慢地向數(shù)據(jù)添加隨機噪聲,然后通過學習逆轉(zhuǎn)擴散過程從噪聲中構(gòu)建所需的數(shù)據(jù)樣本。
相比GAN、VAE和基于流的生成模型,擴散模型在性能上有不錯的權(quán)衡,最近已被證明在圖像生成方面有很大的潛力,尤其是與引導結(jié)合來兼得保真度和多樣性。
△擴散模型與其他三種生成模型的對比
研究人員訓練了一個64×64分辨率的文本條件擴散模型,參數(shù)35億;以及一個256×256分辨率的文本條件上采樣擴散模型,參數(shù)15億。
模型有兩種引導形式來獲得更好的生成效果:無分類器引導(classifier-free guidance)和CLIP引導。
對于CLIP引導,他們還訓練了一個噪聲感知的64×64 ViT-L CLIP模型 (vit)。
模型采用了SOTA論文《Improved Denoising Diffusion Probabilistic Models》(改進的去噪擴散概率模型)的架構(gòu),使用文本條件信息對其進行增強。
對于每個帶噪圖像xt和相應的提示文本caption,該模型預測出p(xt-1|xt,caption)。
為了對文本進行條件處理,模型還將文本編碼為K個token的序列,并將這些token饋送到Transformer中,此Transformer的輸出有兩個用處:
1、在ADM模型中使用最終token embedding來代替class embedding;
2、token embedding的最后一層在整個ADM模型中分別映射每個注意層的維度,然后連接到每個層的注意上下文。
研究人員在與DALL·E相同的數(shù)據(jù)集上訓練GLIDE,batch size為2048,共經(jīng)過250萬次迭代;對于上采樣模型,則進行了batch size為512的160萬次迭代。
這些模型訓練穩(wěn)定,總訓練計算量大致等于DALL·E。
在初始訓練完成之后,研究人員還微調(diào)了基礎模型以支持無條件圖像生成。
訓練過程與預訓練完全一樣,只是將20%的文本token序列替換為空序列。這樣模型就能既保留文本條件生成的能力,也可以無條件生成。
為了讓GLIDE在圖像編輯任務中產(chǎn)生不必要的偽影,研究人員在微調(diào)時將GLIDE訓練樣本的隨機區(qū)域擦除,其余部分與掩碼通道一起作為附加條件信息輸入模型。
相比DALL·E,GLIDE的效果更逼真
- 定性實驗
研究人員首先比較了GLIDE兩種不同的引導策略:CLIP引導和無分類器引導。
分別用XMC-GAN、DALL·E(使用CLIP重排256個樣本,從中選擇最佳結(jié)果)和CLIDE模型(CLIP引導/無分類器引導)在相同的文本條件下生成了一些結(jié)果。
CLIDE模型的結(jié)果未經(jīng)挑選。
可以發(fā)現(xiàn),無分類器引導的樣本通常比CLIP引導的看起來更逼真,當然,兩者都勝過了DALL·E。
對于復雜的場景,CLIDE可以使用修復功能進行迭代生成:比如下圖就是先生成一個普通客廳,再加畫、加茶幾、加花瓶……
此外,CLIDE還可以在SDedit模型上利用草圖與文本相結(jié)合的方式,對圖像進行更多受控修改。
- 定量實驗
研究人員首先通過衡量質(zhì)量和保真度的帕累托邊界(Pareto frontier)來評估無分類引導和CLIP引導之間的差異。
在前兩組曲線中,可以發(fā)現(xiàn)無分類器引導幾乎都是最優(yōu)的——不管是在準確率/召回率上,還是在IS/FID距離上。
而在繪制CLIP分數(shù)與FID的關系時,出現(xiàn)了完全相反的趨勢。
研究人員假設這是CLIP引導正在為評估CLIP模型尋找對抗性示例,而并非真正優(yōu)于無分類器引導。為了驗證這一假設,他們聘請了人工評估員來判斷生成圖像的質(zhì)量。
在這個過程中,人類評估者會看到兩個256×256的圖像,選擇哪個樣本更好地匹配給定文本或看起來更逼真。如果實在分辨不出,每個模型各得一半分數(shù)。
結(jié)果如下:
無分類器引導產(chǎn)生了更符合相應提示的高質(zhì)量樣本。
同時,研究人員也將CLIDE與其他生成模型的質(zhì)量進行了評估:CLIDE獲得了最有競爭力的FID分數(shù)。
再將GLIDE與DALL-E進行人工評估。
包含三種比法:兩種模型都不使用CLIP重排序;僅對DALL·E使用CLIP重排序;對DALL-E使用CLIP重排序,并通過DALL-E使用的離散VAE映射GLIDE樣本。
結(jié)果是不管哪種配置,人類評估員都更傾向于GLIDE的結(jié)果(每項第一行代表GLIDE)。
當然,說這么多,GLIDE也有它的不足,就如開頭的例子,它沒法畫出不合常理的“八條腿的貓”,也就是有智力但缺乏想象力。
此外,未優(yōu)化的GLIDE需要15秒才能在單張A100 GPU上生成一張圖像,這比GAN慢多了。
最后,po一張我們在官方發(fā)布的Colab鏈接上親手試的一張效果,還湊合(an illustration of a rabbit,demo上的模型比較?。?/p>
論文地址:
https://arxiv.org/abs/2112.10741
GitHub地址(是一個在過濾后的數(shù)據(jù)集上訓練的小模型):
https://github.com/openai/glide-text2im
Colab試玩:
https://colab.research.google.com/github/openai/glide-text2im/blob/main/notebooks/text2im.ipynb#scrollTo=iuqVCDzbP1F0
- 北大開源最強aiXcoder-7B代碼大模型!聚焦真實開發(fā)場景,專為企業(yè)私有部署設計2024-04-09
- 剛剛,圖靈獎揭曉!史上首位數(shù)學和計算機最高獎“雙料王”出現(xiàn)了2024-04-10
- 8.3K Stars!《多模態(tài)大語言模型綜述》重大升級2024-04-10
- 谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用2024-04-10