簡單幾筆素描就能“復(fù)原”真實人臉,這是沈向洋高徒出品的CSAGAN
魚羊 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
看著這樣一張抽象的人臉?biāo)孛?,你能猜出真人長什么樣嗎?
現(xiàn)在,有一只GAN,不僅能夠完美突破次元壁,復(fù)現(xiàn)真實人臉:
△左:素描;右:CSAGAN生成
甚至不畫嘴,也不會生成無嘴怪人。效果真實,畫面高清,連臉上的皺紋,都刻畫得清清楚楚。
相比之下,Pix2pix這樣的著名選手黯然失色。困難模式下簡直AV畫質(zhì)。
制造如此神奇魔法的GAN,名叫CSAGAN,即有條件的自注意力機(jī)制生成對抗網(wǎng)絡(luò)(conditional self-attention generative adversarial network)。誕生于中科大類腦智能技術(shù)及應(yīng)用國家工程實驗室。
世上的GAN千千萬,CSAGAN為什么這么秀?
兩大秘訣
CSAGAN的獨特之處,是在保持面部結(jié)構(gòu)不確實的同時,生成高質(zhì)量的人臉圖像。
首先立功的,是條件自注意力模塊(CSAM)。
在模型框架中,研究人員采用了掩碼殘差單元(MRU),并在最后一個MRU之前加入了條件自注意力模塊。
條件自注意力機(jī)制能夠建模人臉不同區(qū)域之間的長期依賴關(guān)系,也就是說,即使素描圖里沒畫清楚鼻子嘴巴,CSAGAN一樣能生成五官齊全的一張臉。
MRU和條件自注意力模塊的輸入是處理過的黑白線條圖。
△稀疏線條圖的密集距離場表示
給定來自上一層的線條圖和特征圖,條件自注意力模塊會以自注意力機(jī)制計算輸出新的特征圖。
而另一個秘訣,是多尺度鑒別器。它能保證生成的人臉具有更加完整的結(jié)構(gòu)和真實的紋理。
鑒別器由不同深度的子網(wǎng)組成,深度不同,最后一層接收域的大小自然也不一樣。最深子網(wǎng)絡(luò)最后一層中的接收域和捕獲全局結(jié)構(gòu)的整個圖像大小一致。這些子網(wǎng)在前幾層彼此共享權(quán)重。
這樣,大尺度鑒別器會注意面部整體結(jié)構(gòu)的完整性,而小尺度鑒別器則專注于細(xì)節(jié),增強(qiáng)生成面部圖像的真實感。
△最后一排是真實照片
中科大團(tuán)隊
這篇論文的第一作者,是來自中國科學(xué)技術(shù)大學(xué)類腦智能技術(shù)及應(yīng)用國家工程實驗室的Yuhang Li。
論文的通訊作者,是該實驗室的陳雪錦副教授。陳老師專注于計算機(jī)圖形學(xué)、計算機(jī)視覺研究,在中科大讀博期間,師從沈向洋教授,2010年從耶魯大學(xué)計算機(jī)系博士后出站。
論文的另外兩位作者,是中科大信息科學(xué)技術(shù)學(xué)院執(zhí)行院長吳楓教授和該實驗室副主任查正軍教授。
傳送門
論文地址:
https://arxiv.org/abs/1910.08914
— 完 —