一邊動,一邊畫,自己就變二次元!華人小哥參與的黑科技:實時交互式視頻風(fēng)格化
動畫“新概念”
魚羊 十三 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
動畫,動畫,就是你動你的,我畫我的。
就像下面這張GIF,左邊是張靜態(tài)圖片,隨著畫者一點一點為其勾勒色彩,右邊的動圖也在實時地變換顏色。
這就是來自布拉格捷克理工大學(xué)和Snap研究所的黑科技——**只需要2個特定的幀,就能實時變換視頻中對象的顏色、風(fēng)格甚至是樣式。
當(dāng)然,更厲害的還在后面。
拿一張你的卡通頭像圖片,隨意對其修改,頂著這張頭像,坐在鏡頭前的你,也會實時發(fā)生改變。
甚至,你還可以一邊畫自己,一邊欣賞自己慢慢變成動畫效果的過程。
真可謂是這邊動著,那邊畫著,動畫就出來了。
而且整個過程無需冗長的訓(xùn)練過程,也不需要大規(guī)模訓(xùn)練數(shù)據(jù)集,研究也提交至SIGGRAPH 2020。
那么,這么神奇的效果到底是如何做到的呢?
交互式視頻風(fēng)格化
首先,輸入一個由 N 幀組成的視頻序列 I。
如下圖所示,對于任何一幀 Ii,可以選擇用蒙版 Mi來劃定風(fēng)格遷移的區(qū)域,或者是對整一幀進行風(fēng)格遷移。
用戶需要做的是提供風(fēng)格化的關(guān)鍵幀 Sk,其風(fēng)格會被以在語義上有意義的方式傳遞到整個視頻序列中。
與此前方法不同的是,這種風(fēng)格遷移是以隨機順序進行的,不需要等待順序靠前的幀先完成風(fēng)格化,也不需要對來自不同關(guān)鍵幀的風(fēng)格化內(nèi)容進行顯式合并。
也就是說,該方法實際上是一種翻譯過濾器,可以快速從幾個異構(gòu)的手繪示例 Sk 中學(xué)習(xí)風(fēng)格,并將其“翻譯”給視頻序列 I 中的任何一幀。
這個圖像轉(zhuǎn)換框架基于 U-net 實現(xiàn)。并且,研究人員采用基于圖像塊(patch-based)的訓(xùn)練方式和抑制視頻閃爍的解決方案,解決了少樣本訓(xùn)練和時間一致性的問題。
基于圖像塊的訓(xùn)練策略
關(guān)鍵幀是少樣本數(shù)據(jù),為了避免過擬合,研究人員采用了基于圖像塊的訓(xùn)練策略。
從原始關(guān)鍵幀(Ik)中隨機抽取一組圖像塊(a),在網(wǎng)絡(luò)中生成它們的風(fēng)格化對應(yīng)塊(b)。
然后,計算這些風(fēng)格化對應(yīng)塊(b)相對于從風(fēng)格化關(guān)鍵幀(Sk)中取樣對應(yīng)圖像塊的損失,并對誤差進行反向傳播。
這樣的訓(xùn)練方案不限于任何特定的損失函數(shù)。本項研究中,采用的是L1損失、對抗性損失和VGG損失的組合。
超參數(shù)優(yōu)化
解決了過擬合之后,還有一個問題,就是超參數(shù)的優(yōu)化。不當(dāng)?shù)某瑓?shù)可能會導(dǎo)致推理質(zhì)量低下。
研究人員使用網(wǎng)格搜索法,對超參數(shù)的4維空間進行采樣:Wp——訓(xùn)練圖像塊的大??;Nb——一個batch中圖像塊的數(shù)量;α——學(xué)習(xí)率;Nr——ResNet塊的數(shù)量。
對于每一個超參數(shù)設(shè)置:(1)執(zhí)行給定時間訓(xùn)練;(2)對不可見幀進行推理;(3)計算推理出的幀(O4)和真實值(GT4)之間的損失。
而目標(biāo)就是將這個損失最小化。
提高時間一致性
訓(xùn)練好了翻譯網(wǎng)絡(luò),就可以在顯卡上實時或并行地實現(xiàn)視頻風(fēng)格遷移了。
不過,研究人員發(fā)現(xiàn)在許多情況下,視頻閃爍仍很明顯。
第一個原因,是原始視頻中存在時態(tài)噪聲。為此,研究人員采用了在時域中運行的雙邊濾波器的運動補償變體。
第二個原因,是風(fēng)格化內(nèi)容的視覺歧義。解決方法是,提供一個額外的輸入層,以提高網(wǎng)絡(luò)的判別能力。
該層由一組隨機2維高斯分布的稀疏集合組成,能幫助網(wǎng)絡(luò)識別局部上下文,并抑制歧義。
不過,研究人員也提到了該方法的局限性:
當(dāng)出現(xiàn)新的沒有被風(fēng)格化的特征時,該方法通常不能為其生成一致的風(fēng)格化效果。需要提供額外的關(guān)鍵幀來使風(fēng)格化一致。
處理高分辨率(如4K)關(guān)鍵幀比較困難
使用運動補償?shù)碾p邊濾波器,以及隨機高斯混合層的創(chuàng)建,需要獲取多個視頻幀,對計算資源的要求更高,會影響實時視頻流中實時推理的效果。(Demo的實時捕獲會話中,沒有采用提高時間一致性的處理方法)
研究團隊
這項研究一作為Ond?ej Texler,布拉格捷克理工大學(xué)計算機圖形與交互系的三年級博士生。
本科和碩士也均畢業(yè)于此。主要研究興趣是計算機圖形學(xué)、圖像處理、計算機視覺和深度學(xué)習(xí)。
除了一作之外,我們還發(fā)現(xiàn)一位華人作者——柴蒙磊。博士畢業(yè)于浙江大學(xué),目前為Snap Research創(chuàng)意視覺(Creative Vision)組的資深研究科學(xué)家。
主要從事計算機視覺和計算機圖形學(xué)的研究,主攻人類數(shù)字化、圖像處理、三維重建和基于物理的動畫。
傳送門
項目地址:
https://ondrejtexler.github.io/patch-based_training/
— 完 —