給GAN一句描述,它就能按要求畫(huà)畫(huà),微軟CVPR新研究 | 附PyTorch代碼
ObjGAN可以理解一段說(shuō)明文字,生成草圖布局,并根據(jù)確切描述完善圖像細(xì)節(jié)。
曉查 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
讓AI認(rèn)得圖像,根據(jù)自己的理解給出一段敘述,已經(jīng)不是什么新鮮事了。從圖像到文字容易,把這個(gè)過(guò)程反過(guò)來(lái)卻很難。
讓AI畫(huà)圖有了成熟的解決方案,GAN就是是一個(gè)好辦法,但是它通暢并不能按要求隨心所欲造出圖像。
而微軟和京東AI研究院合作提出的ObjGAN就能做到這一點(diǎn)。ObjGAN可以理解一段說(shuō)明文字,生成草圖布局,并根據(jù)確切描述完善圖像細(xì)節(jié)。
他們的文章《Object-driven Text-to-Image Synthesis via Adversarial Training》已經(jīng)被正在加州長(zhǎng)灘舉辦的學(xué)術(shù)會(huì)議CVPR 2019收錄。
應(yīng)付多種場(chǎng)景
研究人員在文章中說(shuō),ObjGAN的生成器能夠利用細(xì)節(jié)單詞和對(duì)象級(jí)信息來(lái)逐步細(xì)化合成圖像。這使得ObjGAN在生成圖像細(xì)節(jié)時(shí)比之前的研究要強(qiáng)得多。
ObjGAN能生成多種場(chǎng)景下的小狗:一只棕色小狗躺在床上,或者是一只黑色小狗叼飛盤(pán)。
△左邊是真實(shí)場(chǎng)景,中間兩張由P-AttnGAN生成,右邊兩張由ObjGAN生成
如果說(shuō)簡(jiǎn)單場(chǎng)景還看不出ObjGAN的厲害之處,那么下面兩幅場(chǎng)景可以說(shuō)是遠(yuǎn)遠(yuǎn)把對(duì)手甩在身后了。

上一張是酒店房間,下一張是多種蔬菜水果,這兩種場(chǎng)景下的對(duì)象非常多,P-AttnGAN已經(jīng)翻車(chē),除了畫(huà)面混亂外,它還發(fā)生了理解錯(cuò)誤的問(wèn)題,把藍(lán)色屬性錯(cuò)誤地放在床這個(gè)物體上。
為了證明Obj-GAN的泛化能力,研究人員不僅讓它生成真實(shí)生活中的場(chǎng)景,甚至連不合常理的結(jié)果也可以“強(qiáng)行”生成。
比如讓汽車(chē)火車(chē)停在水面上,讓喵咪去叼飛盤(pán)或者下海游泳。
在客觀指標(biāo)上,Obj-GAN在大規(guī)模COCO基準(zhǔn)測(cè)試的各種指標(biāo)上優(yōu)于先前的水平,Inception分?jǐn)?shù)提高到了27,大大高于P-AttnGAN只有20左右的得分,F(xiàn)ID也降低到了25.85。
ObjGAN原理
由文字描述生成圖像的難點(diǎn)在于,如何讓AI理解場(chǎng)景中多個(gè)對(duì)象之間的關(guān)系。ObjGAN通過(guò)關(guān)注文本描述中最相關(guān)的單詞和預(yù)先生成的語(yǔ)義布局來(lái)合成對(duì)象。
以前的方法使用僅為單個(gè)對(duì)象提供粗粒度信號(hào)的圖像-描述對(duì),即使是性能最佳的模型也難以生成語(yǔ)義上有意義包含多個(gè)對(duì)象的圖片。
為了克服這些問(wèn)題,研究人員提出了一種新的對(duì)象驅(qū)動(dòng)的注意圖像生成器,將圖像生成分為構(gòu)圖和精細(xì)化圖像兩步。
此外,他們還提出了一種新的基于Fast R-CNN的逐對(duì)象鑒別器,提供關(guān)于合成對(duì)象是否與文本描述和預(yù)先生成布局匹配的識(shí)別信號(hào)。
最后,微軟在這方面的研究不止ObjGAN一篇論文,他們還與騰訊AI研究院StoryGAN,也是從文本描述生成圖像,同樣被今年的CVPR收錄。
傳送門(mén)
論文地址:
https://arxiv.org/abs/1902.10740
PyTorch實(shí)現(xiàn)已開(kāi)源:
https://github.com/jamesli1618/Obj-GAN
- 腦機(jī)接口走向現(xiàn)實(shí),11張PPT看懂中國(guó)腦機(jī)接口產(chǎn)業(yè)現(xiàn)狀|量子位智庫(kù)2021-08-10
- 張朝陽(yáng)開(kāi)課手推E=mc2,李永樂(lè)現(xiàn)場(chǎng)狂做筆記2022-03-11
- 阿里數(shù)學(xué)競(jìng)賽可以報(bào)名了!獎(jiǎng)金增加到400萬(wàn)元,題目面向大眾公開(kāi)征集2022-03-14
- 英偉達(dá)遭黑客最后通牒:今天必須開(kāi)源GPU驅(qū)動(dòng),否則公布1TB機(jī)密數(shù)據(jù)2022-03-05