真人視頻秒變高清動漫臉,數(shù)十種“濾鏡”可選,無需注冊在線可玩|SIGGRAPH Asia 2022
一作是北大博士
羿閣 Pine 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
自拍的視頻也能轉換成高清動漫臉,這個AI能夠在線玩了!
多達數(shù)十種肖像風格,并且支持高分辨率,生成的視頻是醬嬸的~
比如想生成“迪士尼”卡通風格:
又或者想生成游戲里的角色風格:
這是生成的皮克斯動畫風格的效果:
這是南洋理工大學開源的一個叫VToonify的框架,目前在Huggingface和Colab上都可以運行,一作還是北大博士。
看完上面的示例,是不是心癢癢了,下面有詳細教程手把手教你怎么玩,還不快學起來!
在線可玩
VToonify的操作可以說非常簡單易上手了。
首先,選取你喜歡的卡通風格,公主風、肌肉風、大眼特效……還有5種插圖風供你選擇。
其次,上傳包含正臉的視頻(或圖像),點擊一鍵縮放,這一步是為了避免CPU/GPU過載,不過不用擔心,不會對最后生成視頻的質量有影響。
除此之外,還可以對上傳視頻的尺寸進行裁剪或填充。
接下來,只需等待十幾秒,即可得到最終的高清版卡通肖像。
而且,如果對“美顏程度”不滿意,還可以后期調整。
那么,如此神奇的效果,背后的原理是什么呢?
集成兩種框架
要講明白VToonify風格轉移的原理,就不得不提到StyleGAN,很多圖像風格遷移框架都是以這個模型為基礎的。
基于StyleGAN的方法也被稱作圖片卡通化,它將人臉編碼到潛在空間中,然后再將生成的代碼應用到被藝術肖像數(shù)據(jù)集調整后的StyleGAN,最終生成不同風格的肖像圖。
重要的是,它可以生成1024*1024高分辨率的圖像。
但StyleGAN在調整肖像的風格時,需要在固定的尺寸下進行,而且不完整的面孔以及一些奇怪的手勢都會對它的效果產(chǎn)生影響,因此StyleGAN對動態(tài)肖像是不太友好的。
這時,就需要再介紹另外一種圖像轉換框架了——采用卷積網(wǎng)絡的圖像轉換框架,它能夠很好地忽略在測試階段圖像大小和人臉位置的限制?(與StyleGAN完全互補了)。
說回VToonify,它集兩個框架的大成于一身,成為一個全新的混合框架。
研究人員刪除了StyleGAN固定大小的輸入特性和低分辨率層,然后創(chuàng)建了創(chuàng)建了一個完全卷積的編碼器生成器架構。
具體來說,就是將StyleGAN模型集成到生成器中,將模型和數(shù)據(jù)結合起來,從而它的樣式修改特性由VToonify繼承。
并且,作為生成器的StyleGAN對編碼器進行訓練,可以大大減少訓練時間和難度。
值得一提的是,該研究團隊在今年3月就曾開發(fā)過一款圖像風格轉移AI:模仿大師(Pastiche Master),基于DualStyleGAN的框架,能夠靈活控制風格并修改風格度。
而這次研究團隊推出VToonify,不僅繼承了DualStyleGAN的優(yōu)點,并且通過修改DualStyleGAN的風格控制模塊將這些特性進一步擴展到視頻。
研究團隊
VToonify的研究團隊全部來自南洋理工大學。
論文一作楊帥,是南洋理工大學的研究員,主要研究方向是圖像生成和圖像編輯,本科和博士均就讀于北京大學。
通訊作者呂健勤,是南洋理工大學計算機科學與工程學院的副教授,也是香港中文大學客座副教授,其研究方向主要為計算機視覺和深度學習。
以下是VToonify在線試玩鏈接,感興趣的小伙伴們自己動手試試吧~
在線可玩:
[1]https://huggingface.co/spaces/PKUWilliamYang/VToonify?continueFlag=4b9ae61e5c13076ecd7ba4f70434f863
[2]https://colab.research.google.com/github/williamyang1991/VToonify/blob/master/notebooks/inference_playground.ipynb
論文原文:
https://arxiv.org/abs/2209.11224
參考鏈接:
[1]https://www.reddit.com/r/MachineLearning/comments/xyxe8w/r_vtoonify_controllable_highresolution_portrait/
[2]https://huggingface.co/PKUWilliamYang/VToonify?continueFlag=4b9ae61e5c13076ecd7ba4f70434f863
[3]https://twitter.com/ShuaiYang1991/status/1576937439528042499