一舉打敗16個同類模型,視頻超分比賽冠軍算法入選CVPR 2022,來自商湯&南洋理工大學(xué)
NTIRE 2021三冠一亞
如何讓模糊的老片變高清?
AI的答案是超分辨率算法。
現(xiàn)在,在視頻超分領(lǐng)域,有一個強大的算法拿下了超分比賽NTIRE 2021三冠一亞的優(yōu)異成績,登上了CVPR 2022。
它的名字叫做BasicVSR++,是對視頻超分SOTA模型BasicVSR的進一步改進。
BasicVSR也曾拿下NTIRE冠軍,入選CVPR 2021。
現(xiàn)在,這個BasicVSR+++在基本相同的參數(shù)量下,不僅性能大幅超過前輩,PSNR(峰值信噪比,圖像質(zhì)量評估指標)提高了0.82dB,還能應(yīng)用到更多的視頻復(fù)原任務(wù)中(例如壓縮視頻增強)。
加強版BasicVSR
BasicVSR采用雙向傳播(propagation)+特征對齊方式,能夠提取整個輸入視頻中的有效信息進行超分。
但是,它這一基本設(shè)計也限制了信息聚合的功效,比如難以恢復(fù)精細的細節(jié),尤其是在處理復(fù)雜的遮擋區(qū)域時。
因此,加強版的BasicVSR++在傳播和對齊方面進行了重新改造,采用了二階網(wǎng)格傳播(second-order grid propagation)?和光流引導(dǎo)可變形對齊?(flow-guided deformable alignment)的設(shè)計來改善網(wǎng)絡(luò)中的信息聚合能力,提升遮擋區(qū)域的魯棒性和有效性。
其中,二階網(wǎng)格可以讓信息從不同的時空位置進行前向后后向傳播,讓特征的傳播更有效。
光流引導(dǎo)可變形對齊則可以讓幀進行更具魯棒性的特征對齊。
采用這一對齊方式主要是單純的形變對齊訓(xùn)練效果不穩(wěn)定,盡管可變形卷積?(DCN)?網(wǎng)絡(luò)中具備多樣性的偏移量(offset)使形變對齊的性能優(yōu)于光流對齊。
BasicVSR+++具體架構(gòu)如下:
給定輸入視頻,首先采用殘差模塊對每一幀提取特征;然后這些特征在二階網(wǎng)絡(luò)傳播中進行信息傳播,其中對齊部分采用光流引導(dǎo)形變對齊;完成信息傳播后,匯聚特征生成輸出圖像。
在16個同類算法中性能全部最佳
作者對比了16種不同視頻超分算法的性能、參數(shù)量以及耗時,結(jié)果是BasicVSR++在所有數(shù)據(jù)集下的兩種退化方式中均取得最佳性能(紅色代表最佳分數(shù),藍色代表次佳分數(shù))。
特別地,相比大容量滑動窗口算法EDSR,BasicVSR++獲得了1.3dB的性能提升,同時參數(shù)量少65%;
相比之前的最新技術(shù)IconVSR,BasicVSR++在參數(shù)量更少的同時也帶來了1dB的性能提升。
更輕量版的BasicVSR++ (S),相比前輩BasicVSR,也有0.82dB的提升,收益顯著。
而在具體效果中,不管是在REDS4、Vimeo-90K-T還是Vid4數(shù)據(jù)集上,BasicVSR++都能對極細節(jié)的圖像進行復(fù)原,且效果最好。
目前,BasicVSR++的代碼已經(jīng)開源,感興趣的同學(xué)可以去試試。
作者介紹
一作陳焯杰?(Kelvin C.K. Chan)?來自南洋理工大學(xué)計算機科學(xué)與工程學(xué)院,博士三年級在讀,本碩畢業(yè)于香港中文大學(xué)。
目前的研究方向為圖像/視頻恢復(fù),一共發(fā)表過5篇頂會論文。
通訊作者為他的導(dǎo)師呂健勤(Chen Change Loy),南洋理工大學(xué)計算機學(xué)院副教授,商湯-南洋理工大學(xué)聯(lián)合實驗室S-Lab副主任。
他倆也是BasicVSR的原班作者。
BasicVSR++的剩余兩位作者分別為:該校二年級博士生周尚辰和該校研究員Xu Xiangyu。
論文地址:
https://arxiv.org/abs/2104.13371
代碼:
https://github.com/ckkelvinchan/RealBasicVSR
- 北大開源最強aiXcoder-7B代碼大模型!聚焦真實開發(fā)場景,專為企業(yè)私有部署設(shè)計2024-04-09
- 剛剛,圖靈獎揭曉!史上首位數(shù)學(xué)和計算機最高獎“雙料王”出現(xiàn)了2024-04-10
- 8.3K Stars!《多模態(tài)大語言模型綜述》重大升級2024-04-10
- 谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用2024-04-10