真人視頻秒變高清動(dòng)漫臉,數(shù)十種“濾鏡”可選,無需注冊(cè)在線可玩|SIGGRAPH Asia 2022
一作是北大博士
羿閣 Pine 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
自拍的視頻也能轉(zhuǎn)換成高清動(dòng)漫臉,這個(gè)AI能夠在線玩了!
多達(dá)數(shù)十種肖像風(fēng)格,并且支持高分辨率,生成的視頻是醬嬸的~
比如想生成“迪士尼”卡通風(fēng)格:
又或者想生成游戲里的角色風(fēng)格:
這是生成的皮克斯動(dòng)畫風(fēng)格的效果:
這是南洋理工大學(xué)開源的一個(gè)叫VToonify的框架,目前在Huggingface和Colab上都可以運(yùn)行,一作還是北大博士。
看完上面的示例,是不是心癢癢了,下面有詳細(xì)教程手把手教你怎么玩,還不快學(xué)起來!
在線可玩
VToonify的操作可以說非常簡單易上手了。
首先,選取你喜歡的卡通風(fēng)格,公主風(fēng)、肌肉風(fēng)、大眼特效……還有5種插圖風(fēng)供你選擇。
其次,上傳包含正臉的視頻(或圖像),點(diǎn)擊一鍵縮放,這一步是為了避免CPU/GPU過載,不過不用擔(dān)心,不會(huì)對(duì)最后生成視頻的質(zhì)量有影響。
除此之外,還可以對(duì)上傳視頻的尺寸進(jìn)行裁剪或填充。
接下來,只需等待十幾秒,即可得到最終的高清版卡通肖像。
而且,如果對(duì)“美顏程度”不滿意,還可以后期調(diào)整。
那么,如此神奇的效果,背后的原理是什么呢?
集成兩種框架
要講明白VToonify風(fēng)格轉(zhuǎn)移的原理,就不得不提到StyleGAN,很多圖像風(fēng)格遷移框架都是以這個(gè)模型為基礎(chǔ)的。
基于StyleGAN的方法也被稱作圖片卡通化,它將人臉編碼到潛在空間中,然后再將生成的代碼應(yīng)用到被藝術(shù)肖像數(shù)據(jù)集調(diào)整后的StyleGAN,最終生成不同風(fēng)格的肖像圖。
重要的是,它可以生成1024*1024高分辨率的圖像。
但StyleGAN在調(diào)整肖像的風(fēng)格時(shí),需要在固定的尺寸下進(jìn)行,而且不完整的面孔以及一些奇怪的手勢都會(huì)對(duì)它的效果產(chǎn)生影響,因此StyleGAN對(duì)動(dòng)態(tài)肖像是不太友好的。
這時(shí),就需要再介紹另外一種圖像轉(zhuǎn)換框架了——采用卷積網(wǎng)絡(luò)的圖像轉(zhuǎn)換框架,它能夠很好地忽略在測試階段圖像大小和人臉位置的限制?(與StyleGAN完全互補(bǔ)了)。
說回VToonify,它集兩個(gè)框架的大成于一身,成為一個(gè)全新的混合框架。
研究人員刪除了StyleGAN固定大小的輸入特性和低分辨率層,然后創(chuàng)建了創(chuàng)建了一個(gè)完全卷積的編碼器生成器架構(gòu)。
具體來說,就是將StyleGAN模型集成到生成器中,將模型和數(shù)據(jù)結(jié)合起來,從而它的樣式修改特性由VToonify繼承。
并且,作為生成器的StyleGAN對(duì)編碼器進(jìn)行訓(xùn)練,可以大大減少訓(xùn)練時(shí)間和難度。
值得一提的是,該研究團(tuán)隊(duì)在今年3月就曾開發(fā)過一款圖像風(fēng)格轉(zhuǎn)移AI:模仿大師(Pastiche Master),基于DualStyleGAN的框架,能夠靈活控制風(fēng)格并修改風(fēng)格度。
而這次研究團(tuán)隊(duì)推出VToonify,不僅繼承了DualStyleGAN的優(yōu)點(diǎn),并且通過修改DualStyleGAN的風(fēng)格控制模塊將這些特性進(jìn)一步擴(kuò)展到視頻。
研究團(tuán)隊(duì)
VToonify的研究團(tuán)隊(duì)全部來自南洋理工大學(xué)。
論文一作楊帥,是南洋理工大學(xué)的研究員,主要研究方向是圖像生成和圖像編輯,本科和博士均就讀于北京大學(xué)。
通訊作者呂健勤,是南洋理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院的副教授,也是香港中文大學(xué)客座副教授,其研究方向主要為計(jì)算機(jī)視覺和深度學(xué)習(xí)。
以下是VToonify在線試玩鏈接,感興趣的小伙伴們自己動(dòng)手試試吧~
在線可玩:
[1]https://huggingface.co/spaces/PKUWilliamYang/VToonify?continueFlag=4b9ae61e5c13076ecd7ba4f70434f863
[2]https://colab.research.google.com/github/williamyang1991/VToonify/blob/master/notebooks/inference_playground.ipynb
論文原文:
https://arxiv.org/abs/2209.11224
參考鏈接:
[1]https://www.reddit.com/r/MachineLearning/comments/xyxe8w/r_vtoonify_controllable_highresolution_portrait/
[2]https://huggingface.co/PKUWilliamYang/VToonify?continueFlag=4b9ae61e5c13076ecd7ba4f70434f863
[3]https://twitter.com/ShuaiYang1991/status/1576937439528042499