給GAN一句描述,它就能按要求畫畫,微軟CVPR新研究 | 附PyTorch代碼
ObjGAN可以理解一段說明文字,生成草圖布局,并根據(jù)確切描述完善圖像細節(jié)。
曉查 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
讓AI認得圖像,根據(jù)自己的理解給出一段敘述,已經(jīng)不是什么新鮮事了。從圖像到文字容易,把這個過程反過來卻很難。
讓AI畫圖有了成熟的解決方案,GAN就是是一個好辦法,但是它通暢并不能按要求隨心所欲造出圖像。
而微軟和京東AI研究院合作提出的ObjGAN就能做到這一點。ObjGAN可以理解一段說明文字,生成草圖布局,并根據(jù)確切描述完善圖像細節(jié)。
他們的文章《Object-driven Text-to-Image Synthesis via Adversarial Training》已經(jīng)被正在加州長灘舉辦的學術(shù)會議CVPR 2019收錄。
應付多種場景
研究人員在文章中說,ObjGAN的生成器能夠利用細節(jié)單詞和對象級信息來逐步細化合成圖像。這使得ObjGAN在生成圖像細節(jié)時比之前的研究要強得多。
ObjGAN能生成多種場景下的小狗:一只棕色小狗躺在床上,或者是一只黑色小狗叼飛盤。
△左邊是真實場景,中間兩張由P-AttnGAN生成,右邊兩張由ObjGAN生成
如果說簡單場景還看不出ObjGAN的厲害之處,那么下面兩幅場景可以說是遠遠把對手甩在身后了。

上一張是酒店房間,下一張是多種蔬菜水果,這兩種場景下的對象非常多,P-AttnGAN已經(jīng)翻車,除了畫面混亂外,它還發(fā)生了理解錯誤的問題,把藍色屬性錯誤地放在床這個物體上。
為了證明Obj-GAN的泛化能力,研究人員不僅讓它生成真實生活中的場景,甚至連不合常理的結(jié)果也可以“強行”生成。
比如讓汽車火車停在水面上,讓喵咪去叼飛盤或者下海游泳。
在客觀指標上,Obj-GAN在大規(guī)模COCO基準測試的各種指標上優(yōu)于先前的水平,Inception分數(shù)提高到了27,大大高于P-AttnGAN只有20左右的得分,F(xiàn)ID也降低到了25.85。
ObjGAN原理
由文字描述生成圖像的難點在于,如何讓AI理解場景中多個對象之間的關(guān)系。ObjGAN通過關(guān)注文本描述中最相關(guān)的單詞和預先生成的語義布局來合成對象。
以前的方法使用僅為單個對象提供粗粒度信號的圖像-描述對,即使是性能最佳的模型也難以生成語義上有意義包含多個對象的圖片。
為了克服這些問題,研究人員提出了一種新的對象驅(qū)動的注意圖像生成器,將圖像生成分為構(gòu)圖和精細化圖像兩步。
此外,他們還提出了一種新的基于Fast R-CNN的逐對象鑒別器,提供關(guān)于合成對象是否與文本描述和預先生成布局匹配的識別信號。
最后,微軟在這方面的研究不止ObjGAN一篇論文,他們還與騰訊AI研究院StoryGAN,也是從文本描述生成圖像,同樣被今年的CVPR收錄。
傳送門
論文地址:
https://arxiv.org/abs/1902.10740
PyTorch實現(xiàn)已開源:
https://github.com/jamesli1618/Obj-GAN
- 腦機接口走向現(xiàn)實,11張PPT看懂中國腦機接口產(chǎn)業(yè)現(xiàn)狀|量子位智庫2021-08-10
- 張朝陽開課手推E=mc2,李永樂現(xiàn)場狂做筆記2022-03-11
- 阿里數(shù)學競賽可以報名了!獎金增加到400萬元,題目面向大眾公開征集2022-03-14
- 英偉達遭黑客最后通牒:今天必須開源GPU驅(qū)動,否則公布1TB機密數(shù)據(jù)2022-03-05