高清還原破損視頻,參數(shù)和訓(xùn)練時(shí)間減少三分之二,臺(tái)大這項(xiàng)研究登上了BMVC 2019
郭一璞 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
小刺猬的視頻,被潑了墨。
用AI“清洗”一下,就干凈了。
支離破碎的滑板視頻。
這下變了回來(lái)。
一位黑哥哥在擼巨型老鼠,但是畫(huà)面破損,看不清。
AI還原一下,現(xiàn)在好了。
每個(gè)被破損的視頻,經(jīng)過(guò)AI還原之后,仿佛從來(lái)沒(méi)有被破壞過(guò)一樣,完整清晰。
這是臺(tái)灣大學(xué)發(fā)表在BMVC 2019的一項(xiàng)研究,一作是臺(tái)大通訊與多媒體實(shí)驗(yàn)室學(xué)生Ya-Liang Chang。
核心創(chuàng)造:LGTSM
之所以能將視頻畫(huà)面修補(bǔ)的那么完美,要?dú)w功于研究者們提出的可學(xué)習(xí)的門(mén)控時(shí)移模塊,Learnable Gated Temporal Shift Module,LGTSM。
LGTSM改進(jìn)自2018年MIT-IBM沃森實(shí)驗(yàn)室提出的TSM模塊,增加了門(mén)控卷積濾波器,設(shè)計(jì)了可學(xué)習(xí)的時(shí)間移位內(nèi)核(temporal shifting kernels)。
由于移位操作僅使用1/4通道大小的附加緩沖器,因此與傳統(tǒng)的2D卷積相比,它在計(jì)算時(shí)間和運(yùn)行時(shí)內(nèi)存方面成本很低。
這樣,這個(gè)模塊就能將模型的參數(shù)和訓(xùn)練時(shí)間都減少到原來(lái)的33%,達(dá)到幾乎相同的表現(xiàn)效果。
在這個(gè)模塊之外,整體的模型則是由U-net類生成器和TSMGAN鑒別器構(gòu)成,LGTSM模塊所處的位置就是生成器內(nèi),除此之外生成器還包括11個(gè)卷積層。
在不同數(shù)據(jù)集上跑的結(jié)果
用到的數(shù)據(jù)集是基于YouTube視頻制作的FaceForensics和FVI數(shù)據(jù)集,總共視頻數(shù)量超過(guò)16000個(gè)。
在兩個(gè)數(shù)據(jù)集上,LGTSM和目前成績(jī)最好的3DGated非常接近,但參數(shù)的數(shù)量卻只有前者的三分之一。
傳送門(mén)
論文:
Learnable Gated Temporal Shift Module for Deep Video Inpainting
Ya-Liang Chang, Zhe Yu Liu, Kuan-Ying Lee, Winston Hsu
https://arxiv.org/abs/1907.01131
GitHub:
https://github.com/amjltc295/Free-Form-Video-Inpainting
視頻效果全集:
https://www.youtube.com/playlist?list=PLPoVtv-xp_dL5uckIzz1PKwNjg1yI0I94
—?完?—