簡(jiǎn)單幾筆素描就能“復(fù)原”真實(shí)人臉,這是沈向洋高徒出品的CSAGAN
魚(yú)羊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
看著這樣一張抽象的人臉?biāo)孛?,你能猜出真人長(zhǎng)什么樣嗎?
現(xiàn)在,有一只GAN,不僅能夠完美突破次元壁,復(fù)現(xiàn)真實(shí)人臉:
△左:素描;右:CSAGAN生成
甚至不畫(huà)嘴,也不會(huì)生成無(wú)嘴怪人。效果真實(shí),畫(huà)面高清,連臉上的皺紋,都刻畫(huà)得清清楚楚。
相比之下,Pix2pix這樣的著名選手黯然失色。困難模式下簡(jiǎn)直AV畫(huà)質(zhì)。
制造如此神奇魔法的GAN,名叫CSAGAN,即有條件的自注意力機(jī)制生成對(duì)抗網(wǎng)絡(luò)(conditional self-attention generative adversarial network)。誕生于中科大類腦智能技術(shù)及應(yīng)用國(guó)家工程實(shí)驗(yàn)室。
世上的GAN千千萬(wàn),CSAGAN為什么這么秀?
兩大秘訣
CSAGAN的獨(dú)特之處,是在保持面部結(jié)構(gòu)不確實(shí)的同時(shí),生成高質(zhì)量的人臉圖像。
首先立功的,是條件自注意力模塊(CSAM)。
在模型框架中,研究人員采用了掩碼殘差單元(MRU),并在最后一個(gè)MRU之前加入了條件自注意力模塊。
條件自注意力機(jī)制能夠建模人臉不同區(qū)域之間的長(zhǎng)期依賴關(guān)系,也就是說(shuō),即使素描圖里沒(méi)畫(huà)清楚鼻子嘴巴,CSAGAN一樣能生成五官齊全的一張臉。
MRU和條件自注意力模塊的輸入是處理過(guò)的黑白線條圖。
△稀疏線條圖的密集距離場(chǎng)表示
給定來(lái)自上一層的線條圖和特征圖,條件自注意力模塊會(huì)以自注意力機(jī)制計(jì)算輸出新的特征圖。
而另一個(gè)秘訣,是多尺度鑒別器。它能保證生成的人臉具有更加完整的結(jié)構(gòu)和真實(shí)的紋理。
鑒別器由不同深度的子網(wǎng)組成,深度不同,最后一層接收域的大小自然也不一樣。最深子網(wǎng)絡(luò)最后一層中的接收域和捕獲全局結(jié)構(gòu)的整個(gè)圖像大小一致。這些子網(wǎng)在前幾層彼此共享權(quán)重。
這樣,大尺度鑒別器會(huì)注意面部整體結(jié)構(gòu)的完整性,而小尺度鑒別器則專注于細(xì)節(jié),增強(qiáng)生成面部圖像的真實(shí)感。
△最后一排是真實(shí)照片
中科大團(tuán)隊(duì)
這篇論文的第一作者,是來(lái)自中國(guó)科學(xué)技術(shù)大學(xué)類腦智能技術(shù)及應(yīng)用國(guó)家工程實(shí)驗(yàn)室的Yuhang Li。
論文的通訊作者,是該實(shí)驗(yàn)室的陳雪錦副教授。陳老師專注于計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺(jué)研究,在中科大讀博期間,師從沈向洋教授,2010年從耶魯大學(xué)計(jì)算機(jī)系博士后出站。
論文的另外兩位作者,是中科大信息科學(xué)技術(shù)學(xué)院執(zhí)行院長(zhǎng)吳楓教授和該實(shí)驗(yàn)室副主任查正軍教授。
傳送門
論文地址:
https://arxiv.org/abs/1910.08914
— 完 —
- 標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了!首創(chuàng)層次化評(píng)價(jià)體系,告別“誰(shuí)的demo更吸睛”主觀評(píng)估2025-08-16
- 阿里閃電入局Agent Infra!智能體新基建亮相WAIC,“超級(jí)大腦”開(kāi)箱即用2025-07-31
- 世紀(jì)華通謝斐:在“三大平衡”中領(lǐng)跑,實(shí)現(xiàn)游戲行業(yè)更高質(zhì)量的發(fā)展2025-08-01
- 1.5B參數(shù)撬動(dòng)“吉卜力級(jí)”全能體驗(yàn),國(guó)產(chǎn)開(kāi)源之光多模態(tài)統(tǒng)一模型,來(lái)了2025-07-30