包漿網(wǎng)圖分分鐘變高清,偽影去除、細(xì)節(jié)恢復(fù)更勝前輩AI,下載可玩|騰訊ARC實驗室出品
湯曉鷗弟子一作。
下面來欣賞一些高糊圖片“整個世界都清晰了”的魔法時刻:
無論是動漫還是真實圖像,是不是都清晰還原了?
以上就是由騰訊ARC實驗室最新發(fā)表的圖像超分辨率模型完成的。
與前人工作相比,它可以更有效地消除低分辯率圖像中的振鈴和overshoot偽影;
面對真實風(fēng)景圖片,能更逼真地恢復(fù)細(xì)節(jié),比如樹枝、巖石、磚塊等。
除了上面這些官方的demo,我們也試了一下,效果還比較滿意:
如果你也想試試,可在GitHub上下載該模型的可執(zhí)行文件,Windows/Linux/MacOS都可以,且不需要CUDA或PyTorch的支持。
下好以后只需在終端執(zhí)行以下命令即可使用:
./realesrgan-ncnn-vulkan.exe -i input.jpg -o output.png
基于ESRGAN的改進(jìn)研究
這個模型被命名為Real-ESRGAN,總的來說,就是通過模擬高分辨率圖像變低分辯率過程中的各種退化,然后看到一張糊圖后倒推出來它的高清圖。
而它是對超分“前輩”ESRGAN的進(jìn)一步研究。
ESRGAN曾贏得ECCV2018 PIRM-SR挑戰(zhàn)賽中的第一名,但它在恢復(fù)具有未知和復(fù)雜退化(degradation)的低分辨率圖像方面,也就是盲超分辨率(Blind Super-Resolution)上做的還不夠好。
而相比ESRGAN,Real-ESRGAN使用合成數(shù)據(jù)進(jìn)行訓(xùn)練,引入了高階退化建模以更全面逼真地模擬復(fù)雜的圖像退化,重點考慮了合成過程中常見的振鈴和overshoot偽影。
還采用了一個具有譜歸一化(Spectral Normalization)的U-Net鑒別器,來提高鑒別器的性能并穩(wěn)定訓(xùn)練過程,最終實現(xiàn)了“青出于藍(lán)勝于藍(lán)”的效果。
下面就進(jìn)入具體原理講解:
通常情況下,真實圖像y首先與模糊核(blur kernel)k進(jìn)行卷積,然后執(zhí)行具有比例因子r的下采樣操作,通過添加噪聲n獲得低分辨率圖像x。一般還得再加個JPEG壓縮,即:
而獲得高清圖像的過程就是求解y的過程(其中D表示退化過程)。
然而只采用這一經(jīng)典的退化模擬,訓(xùn)練后的模型只能處理部分圖像,更復(fù)雜的退化(尤其是未知噪聲和某些偽影)仍無法解決:
所以研究人員就引出了高階退化過程來模擬出更真實全面的退化,它包含多個重復(fù)的經(jīng)典退化過程,每個又具有不同的退化超參:
下圖為Real-ESRGAN進(jìn)行退化模擬的示意圖:
采用的是二階退化,具體來說:
- 在模糊(blur)退化方面,為了包含更多不同的核形狀,Real-ESRGAN采用了廣義高斯模糊核和plateau-shaped分布。
- 降噪(noise)方面,除了顏色噪聲和灰度噪聲,還模擬了兩種常見類型:
(1)加性高斯噪聲:其噪聲強(qiáng)度受高斯分布標(biāo)準(zhǔn)差控制;
(2)泊松噪聲:其噪聲強(qiáng)度與圖像信息成正比。
- resize也就是經(jīng)典退化模擬里的下采樣,在這里為了產(chǎn)生更多模糊圖像,就改成了上采樣+下采樣的組合操作。resize方法中,由于最近鄰插值會導(dǎo)致錯位,最后就只考慮了面積、雙線性和雙三次插值。
- JPEG壓縮,能帶來塊偽影。下圖為OpenCV與DiffJPEG的壓縮效果對比,Real-ESRGAN采用的是DiffJPEG。
而在Real-ESRGAN重點關(guān)注的偽影方面:
主要針對非常常見的振鈴偽影(下圖左1左2,看起來像“鬼影”)和overshoot偽影(下圖右2右1,看起來像“鋸齒”)。
采用了sinc濾波器來模擬這兩者 :
以上,退化模擬搞定后,就可以開始訓(xùn)練了。
Real-ESRGAN的生成器沿用了ESRGAN的RRDBNet,還擴(kuò)展了原始的×4 ESRGAN架構(gòu),以執(zhí)行resize比例因子為×2和×1的超分辨率放大。
判別器則由VGG型升級為U-Net型,以具備更強(qiáng)的判別能力,處理復(fù)雜的輸出以及生成關(guān)于局部紋理的精確梯度反饋。
另外,U-Net架構(gòu)和復(fù)雜的退化給訓(xùn)練帶來了不穩(wěn)定性,為此,還采用了譜歸一化來穩(wěn)定模型訓(xùn)練,這也有助于緩解GAN帶來的過度銳化以及偽影。
去除偽影、恢復(fù)紋理細(xì)節(jié)的效果優(yōu)于其他方法
最終可以看到,Real-ESRGAN在去除偽影和恢復(fù)紋理細(xì)節(jié)方面都明顯優(yōu)于以前的方法:
消融實驗也發(fā)現(xiàn)采用二階退化模型的效果最好、通過sinc濾波器的可以跟好地去除偽影、SN+UNet的組合取得了最佳的視覺效果、引入更多的模糊核,模型效果還可以進(jìn)一步提升(分別對應(yīng)下面四組圖):
當(dāng)然,他們也發(fā)現(xiàn)三個表現(xiàn)不夠好的效果,比如線條扭曲、出現(xiàn)了其他偽影。
總而言之,作者表示:盲圖像超分仍處于初步探索階段,之前的BSRGAN以及本文的Real-ESRGAN可為該領(lǐng)域提供一個非常好的基線。
團(tuán)隊介紹
Wang Xintao,畢業(yè)于浙江大學(xué)本科,香港中文大學(xué)博士(師從湯曉鷗),現(xiàn)在是騰訊ARC實驗室(深圳應(yīng)用研究中心)的研究員。研究興趣集中在圖像/視頻的超分辨率恢復(fù)。ESRGAN的一作。
謝良彬 ,中國科學(xué)院深圳先進(jìn)技術(shù)研究所碩士一年級學(xué)生,師從董超教授。
董超,中國科學(xué)院深圳先進(jìn)技術(shù)研究院碩導(dǎo),畢業(yè)于北理工本科,香港中文大學(xué)博士。曾任商湯科高級研究經(jīng)理,谷歌學(xué)術(shù)引用14416次,h指數(shù)22。
單瀛,騰訊PCG應(yīng)用研究中心(ARC)主任。
論文地址:
https://arxiv.org/abs/2107.10833
Colab試玩地址:
https://colab.research.google.com/drive/1k2Zod6kSHEvraybHl50Lys0LerhyTMCo?usp=sharing#scrollTo=7IMD5vhOYp68
GitHub項目地址:
https://github.com/xinntao/Real-ESRGAN