清華唐杰團(tuán)隊(duì)造了個(gè)“中文AI設(shè)計(jì)師”,效果比Dall·E好,可在線試玩
代碼即將放出
曉查 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
要說2021年OpenAI最熱最有創(chuàng)意的產(chǎn)品,那么非Dall·E莫屬了,這是一個(gè)可以從“AI設(shè)計(jì)師”,只要給它一段文字,就能按要求生成圖像。但可惜的是Dall·E并不支持中文。
現(xiàn)在好了,最近清華大學(xué)唐杰團(tuán)隊(duì)打造了一個(gè)“中文版Dall·E”——CogView,它可以將中文文字轉(zhuǎn)圖像。
CogView可以生成現(xiàn)實(shí)中真實(shí)存在場(chǎng)景,如“一條小溪在山澗流淌”:
也可以制造不存在的虛擬事物,如“貓豬”:
有時(shí)候還有點(diǎn)黑色幽默,如“一個(gè)心酸的博士生”:
CogView現(xiàn)在還提供了試玩網(wǎng)頁(yè),你可以在那里輸入任何文字去轉(zhuǎn)成圖形,不像OpenAI的Dall·E只提供幾個(gè)關(guān)鍵詞修改選項(xiàng)。
能指定畫風(fēng),能設(shè)計(jì)服裝
CogView的能力可不僅僅是從文字輸入圖像,它還能處理不同微調(diào)策略的下游任務(wù),例如風(fēng)格學(xué)習(xí)、超分辨率、文本圖像排名和時(shí)裝設(shè)計(jì)。
在使用CogView的時(shí)候,可以加入不同風(fēng)格限定,從而生成不同的繪畫效果。在微調(diào)期間,圖像對(duì)應(yīng)的文本也是“XX風(fēng)格的圖像”。
CogView設(shè)計(jì)的服裝也像模像樣,看起來就像電商展示頁(yè),沒有虛假痕跡。
原理
CogView是一個(gè)帶有VQ-VAE分詞器40億參數(shù)的Transfomer,它的總體結(jié)構(gòu)如下:
CogView使用GPT模型處理離散字典上的token序列。然后將學(xué)習(xí)過程分為兩個(gè)階段:編碼器和解碼器學(xué)習(xí)最小化重建損失,單個(gè)GPT通過串聯(lián)文本優(yōu)化兩個(gè)負(fù)對(duì)數(shù)似然 (NLL) 損失。
結(jié)果是,第一階段退化為純離散自動(dòng)編碼器,作為圖像tokenizer將圖像轉(zhuǎn)換為標(biāo)記序列;第二階段的GPT承擔(dān)了大部分建模任務(wù)。
圖像tokenizer的訓(xùn)練非常重要,方法有最近鄰映射、Gumbel采樣、softmax逼近三種,Dall·E使用的是第三種,而對(duì)于CogView來說三者差別不大。
CogView的主干是一個(gè)單向Transformer,共有48層、40個(gè)注意力頭、40億參數(shù),隱藏層的大小為2560。
在訓(xùn)練中,作者發(fā)現(xiàn)CogView有兩種不穩(wěn)定性:溢出(以NaN損失為特征)和下溢(以發(fā)散損失為特征),然后他們提出了用PB-Relax、Sandwich-LN來解決它們。
最后,CogView在MS COCO實(shí)現(xiàn)了最低的FID,其性能優(yōu)于以前基于GAN的模型和以及類似的Dall·E。
而在人工評(píng)估的測(cè)試中,CogView被選為最好的概率為37.02%,遠(yuǎn)遠(yuǎn)超過其他基于GAN的模型,已經(jīng)可以與Ground Truth(59.53%)競(jìng)爭(zhēng)。
另外作者已經(jīng)放出了GitHub項(xiàng)目頁(yè),不過目前還沒有代碼,感興趣的朋友可以關(guān)注一下等代碼放出。
論文地址:
https://arxiv.org/abs/2105.13290
試用Demo:
https://lab.aminer.cn/cogview/index.html
GitHub頁(yè):
https://github.com/THUDM/CogView