英偉達推出GAN“超級縫合體”,輸入文字草圖語義圖都能生成逼真照片
4種輸入一個GAN搞定
曉查 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
繼GauGAN2之后,英偉達推出了一個GAN的“超級縫合體”——PoE GAN。
PoE GAN可以接受多種模態(tài)的輸入,文字描述、圖像分割、草圖、風格都可以轉化為圖片。
而且它可以同時接受以上幾種輸入模態(tài)的任意兩種組合,這便是PoE的含義。
所謂PoE是Hinton在2002年提出的“專家乘積”(product of experts)概念,每個專家(單獨模型)被定義為輸入空間上的一個概率模型。
而每種單獨的輸入模態(tài)都是合成圖像必須滿足的約束條件,因此滿足所有約束的一組圖像是滿足每個約束集合的交集。
假設每種約束的聯(lián)合條件概率分布都服從高斯分布,就用單條件概率分布的乘積來表述交集的分布。
在此條件下,為了使乘積分布在一個區(qū)域具有高密度,每個單獨的分布需要在該區(qū)域具有高密度,從而滿足每個約束。
而PoE GAN的重點是如何將每種輸入混合在一起。
PoE GAN的設計
PoE GAN的生成器使用全局PoE-Net將不同類型輸入的變化混合起來。
我們將每個模態(tài)輸入編碼為特征向量,然后使用PoE匯總到全局PoE-Net中。解碼器不僅使用全局PoE-Net的輸出,還直接連接分割和草圖編碼器,以此來輸出圖像。
全局PoE-Net的結構如下,這里使用一個潛在的特征矢量z0作為樣本使用PoE,然后由MLP處理以輸出特征向量w。
在鑒別器部分,作者提出了一種多模態(tài)投影鑒別器,將投影鑒別器推廣到處理多個條件輸入。
與計算圖像嵌入和條件嵌入之間單個內積的標準投影鑒別器不同,這里要計算每個輸入模態(tài)的內積,并將其相加以獲得最終損失。
隨意變換輸入的GAN
PoE可以在單模態(tài)輸入、多模態(tài)輸入甚至無輸入時生成圖片。
當使用單個輸入模態(tài)進行測試時,PoE-GAN的表現(xiàn)優(yōu)于之前專門為該模態(tài)設計的SOTA方法。
例如在分割輸入模態(tài)中,PoE-GAN優(yōu)于此前的SPADE和OASIS。
在文本輸入模態(tài)中,PoE-GAN優(yōu)于文本到圖像模型DF-GAN、DM-GAN+CL。
當以模式的任意子集為條件時,PoE-GAN可以生成不同的輸出圖像。下面展示了PoE-GAN的隨機樣本,條件是兩種模式(文本+分割、文本+草圖、分割+草圖)在景觀圖像數(shù)據(jù)集上。
PoE-GAN甚至還能沒有輸入,此時PoE-GAN就會成為一個無條件的生成模型。以下是PoE-GAN無條件生成的樣本。
團隊介紹
論文通訊作者是英偉達著名工程師劉洺堉,他的研究重點是深度生成模型及其應用。英偉達Canvas和GauGAN等有趣的產品均出自他手。
論文一作是黃勛,北京航空航天大學本科畢業(yè),康奈爾大學博士,現(xiàn)在在英偉達工作。
論文地址:
https://arxiv.org/abs/2112.05130
PoE:
https://www.cs.toronto.edu/~hinton/absps/icann-99.pdf
投影鑒別器:
https://arxiv.org/abs/1802.05637
- 腦機接口走向現(xiàn)實,11張PPT看懂中國腦機接口產業(yè)現(xiàn)狀|量子位智庫2021-08-10
- 張朝陽開課手推E=mc2,李永樂現(xiàn)場狂做筆記2022-03-11
- 阿里數(shù)學競賽可以報名了!獎金增加到400萬元,題目面向大眾公開征集2022-03-14
- 英偉達遭黑客最后通牒:今天必須開源GPU驅動,否則公布1TB機密數(shù)據(jù)2022-03-05