博士后小姐姐把“二次元老婆生成器”升級(jí)了:這一次可以指定畫風(fēng)
畫風(fēng)不同怎么在一起?
夢(mèng)晨 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
用GAN(生成對(duì)抗網(wǎng)絡(luò))制作卡通人物形象的研究,相信大家已見過不少。
但這一次新出爐的AniGAN,可以讓你指定任意畫風(fēng)!
只需一張真實(shí)人物照片,加上一張你喜歡的畫師作品做為參考,就能在保留原照片發(fā)型、五官等形狀特征的同時(shí),遷移成相應(yīng)的畫風(fēng)。
拿來做頭像是不是很棒?

又雙叒叕一款GAN?這次更強(qiáng)!
AniGAN團(tuán)隊(duì)認(rèn)為,之前的二次元人物生成算法有兩大問題。
要么不能很好模仿參考圖的畫風(fēng),要么會(huì)過于強(qiáng)調(diào)保留原始照片的形狀,卻并不適合二次元人物的風(fēng)格,造成不符合審美的扭曲與瑕疵。
通過對(duì)比可以看出,AniGAN生成的結(jié)果在模仿參考圖顏色、材質(zhì),以及將原始特征轉(zhuǎn)換成適合二次元方面都更出色。
下圖使用了更大的數(shù)據(jù)集,包含更多樣的色彩、線條、材質(zhì)、發(fā)型及五官特征。
新的生成器架構(gòu)
為了在轉(zhuǎn)換形狀特征的同時(shí)進(jìn)行風(fēng)格遷移,AniGAN團(tuán)隊(duì)提出了新的生成器架構(gòu)。
不同于以往使用殘差塊(Residual Blocks)在生成器的瓶頸層注入風(fēng)格信息的方法。
AniGAN提出了自適應(yīng)堆棧卷積塊?(Adaptive Stack Convolutional Block)和細(xì)粒度風(fēng)格轉(zhuǎn)移塊( Fine-grained Style Transfer Block),以下簡(jiǎn)稱為ASC塊和FST塊。
ASC塊由卷積層、激活層和歸一化層組成。
在以往使用殘差塊時(shí),可能會(huì)忽略一些風(fēng)格信息,如在下面例子中將右眼都錯(cuò)誤地生成為棕色。
FST塊由上采樣層,卷積層和歸一化層組成。
風(fēng)格數(shù)據(jù)會(huì)在上采樣層之后而不是瓶頸層注入,負(fù)責(zé)把局部形狀特征也處理成一種風(fēng)格數(shù)據(jù),并轉(zhuǎn)換成對(duì)應(yīng)的二次元形狀。
去掉FST塊的情況下,生成圖像的面部特征并不適應(yīng)二次元風(fēng)格。
兩種新的歸一化函數(shù)
以往的AdaLIN歸一化函數(shù)會(huì)將實(shí)例歸一化(IN)和層歸一化(LN)按channel結(jié)合在一起,而忽略了channel間的相互關(guān)系。因此不能勝任遷移風(fēng)格同時(shí)轉(zhuǎn)換特征的任務(wù)。
AniGAN團(tuán)隊(duì)提出了點(diǎn)狀層實(shí)例歸一化(point-wise layer instance normalization)和適應(yīng)性點(diǎn)狀層實(shí)例歸一化( adaptive point-wise layer instance normalization ),以下簡(jiǎn)稱PoLIN和AdaPoLIN。
PoLIN和AdaPoLIN會(huì)將所有channel的IN與LN結(jié)合在一起。
從左至右為(a)參考圖像,(b)原始照片,(c)-(f)為去掉PoLin或AdaPolin的各種組合的消融實(shí)驗(yàn),(g)為正式效果
雙分支鑒別器(Double-branch Discriminator)
二次元人臉與真實(shí)人臉既有很大不同,又都是關(guān)于人臉。在研究中稱作領(lǐng)域X和領(lǐng)域Y。
雙分支鑒別器不僅可以通過卷積層的兩個(gè)分支處理特定領(lǐng)域的數(shù)據(jù)分布,還可以處理跨領(lǐng)域共享的數(shù)據(jù)分布。
雙分支鑒別器使生成的二次元人臉減少瑕疵,更加賞心悅目。
另外,該鑒別器也可以在后續(xù)研究中輕松擴(kuò)展成多分支鑒別器(Multi-Branch Discriminator)。
圖像質(zhì)量遠(yuǎn)超前輩
研究團(tuán)隊(duì)使用了Frechet Inception Distance指標(biāo)來評(píng)估生成圖像的質(zhì)量,數(shù)值越低代表生成圖像越接近參考的二次元圖像。
并使用Learned Perceptual Image Patch Similarity來評(píng)估生成圖像之間的風(fēng)格差異性,數(shù)值越高代表多個(gè)生成圖像之間越多樣。
另外還選取了20位20-35歲的測(cè)試者進(jìn)行A/B測(cè)試,詢問他們不同算法生成的圖像中哪張最符合真實(shí)照片的特征以及參考圖像的風(fēng)格,統(tǒng)計(jì)結(jié)果也是AniGAN得分最高。
作者團(tuán)隊(duì)
本論文第一作者李冰,2016年中國(guó)科學(xué)院博士畢業(yè),現(xiàn)在阿卜杜拉國(guó)王科技大學(xué)可視計(jì)算中心做博士后研究員。
團(tuán)隊(duì)其他成員分別來自字節(jié)跳動(dòng)、中國(guó)臺(tái)灣國(guó)立清華大學(xué)與深圳大學(xué)。
參考鏈接:
[1]https://arxiv.org/abs/2102.12593
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長(zhǎng)度,推理能力刷紀(jì)錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語言難題,2300種語言數(shù)字化計(jì)劃正在推進(jìn)2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對(duì)1億年薪挖人,使命感比鈔票更重要2025-08-18