高糊視頻秒變4K!Facebook發(fā)布低分辨率視頻實時渲染算法,網(wǎng)友:是好東西,但是玩不起
成本3000美元!
賈浩楠 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
還記得那個引來巨大爭議,最后把LeCun逼退推特的低分辨率圖像還原算法PULSE嗎?
PULSE是針對低分辨率圖像進行還原的,而就在PULSE問世不久后,一個針對模糊視頻進行實時高分辨率渲染的算法問世了。
前幾天,F(xiàn)acebook公布了一項在即將舉行的SIGGRAPH 2020會議上展示的新論文,提出了一種新的神經(jīng)網(wǎng)絡算法神經(jīng)超采樣。
新算法實現(xiàn)了低分辨率視頻的4*4的實時渲染,也就是說能把大部分視頻分辨率提升16倍,直接變成4K視頻!
而1080p的視頻渲染延遲更是控制到24.4ms!
除了超低延遲,這種算法的巨大進步在于擺脫了特定硬件和技術(shù)的束縛(如虛幻引擎的TAAU和英偉達的DSSL),在PC上就可以實現(xiàn)。
高糊騎兵視頻馬上變4K!
話不多說,直接上實時渲染效果實測。
下圖由上至下,分別是低分辨率輸入視頻、神經(jīng)超采樣算法(分辨率提高16倍)渲染結(jié)果、離線渲染目標視頻截圖。
可以看出,“神經(jīng)超采樣”算法的實時渲染輸出,視頻細節(jié)的精度已經(jīng)高度接近目標渲染視頻。
這樣的優(yōu)秀表現(xiàn)引來網(wǎng)友一片驚嘆,盡管Facebook方面認為這項技術(shù)未來主要用于游戲開發(fā)和實時VR技術(shù),但網(wǎng)友們紛紛喊話FB,希望看到這項技術(shù)用在早年的3D游戲重置上,比如三角洲部隊、放逐等等。
盡管有些游戲已經(jīng)有了重制版,但這個算法可以實現(xiàn)自動渲染,極大提升效率。
那么,這種高性能的實時渲染算法到底怎么實現(xiàn)的呢?
秒變4K是如何實現(xiàn)的
神經(jīng)超采樣實時渲染(Neural-Supersampling for realtime rendering)算法構(gòu)造主要有4個不同功能模塊。
首先是特征提取模塊,包含3層卷積神經(jīng)網(wǎng)絡。這個子網(wǎng)絡單獨處理每個輸入幀, 并在除當前幀外的所有幀中共享權(quán)重。
對于每一幀,特征提取模塊將顏色和深度作為輸入,并生成8個通道的學習特征,然后與輸入的顏色和深度進行連接,從而獲得總共12個通道的特征。網(wǎng)絡如下圖表示。
其次,為了降低重建網(wǎng)絡的復雜性,算法應用了時空重投影,通過使用渲染的運動矢量,將前一幀的像素樣本和學習的特征投射到當前。
為了充分利用低層像素后向運動矢量,需要在目標(高)分辨率空間進行時空重投影。首先,將輸入(低)分辨率空間的像素樣本投影到高分辨率空間,采用零上采樣的方式,即把每個輸入像素分配到其對應的高分辨率像素上,并將其周圍所有缺失的像素作為零。
每個輸入像素的位置平均落在高分辨率中的??像素之間,其中??為上采樣比。之所以選擇零上采樣,一是為了提高效率,二是為了給網(wǎng)絡提供哪些樣本有效或無效的信息。
然后,利用運動矢量的片狀平滑特性,簡單地通過雙線性上采樣將渲染的低分辨率運動矢量圖調(diào)整為高分辨率。雖然這種簡單的方法會給上采樣的運動矢量帶來誤差,但能夠通過這種方法實現(xiàn)對運動矢量的控制。
接下來,進行無采樣前幀的后向扭曲,這一步驟使用了向上采樣向量,對前一幀進行零向上采樣。在翹曲過程中則采用雙線插值。
第三部分是特征重新加權(quán)。
渲染的運動矢量不反映動態(tài)不協(xié)調(diào)或陰影幀之間的變化。因此,扭曲的幀會包含偽影,如在遮擋區(qū)域的陰影和在不一致的陰影區(qū)域不匹配的像素。
為了解決這個問題,研究人員引入了一個特征重新加權(quán)方法模塊,以屏蔽掉這些不匹配的樣本。
特征重新加權(quán)模塊是一個3層卷積神經(jīng)網(wǎng)絡。它將當前幀的零上采樣的RGB-D、零上采樣、扭曲的前一幀同時作為輸入,為之前的每一幀生成一個像素加權(quán)圖,權(quán)重值在0到10之間,其中10是一個超參數(shù)。
超參數(shù)的設置是為了讓學習到的地圖不僅能衰減,而且還能也會放大每個像素的特征。
最后將每個加權(quán)圖乘以對應前一幀的所有特征。
第四部分是重建,將當前幀的特征和重新加權(quán)的先前幀的特征連接起來,并反饋給重建網(wǎng)絡,該網(wǎng)絡會輸出恢復的高分辨率圖像。重建子模塊采用3級、10層的U-Net,并帶有跳過連接。
實驗結(jié)果
團隊的實驗條件是英偉達Titan V卡,并使用了Nvidia TensorRT對算法進行了16bit優(yōu)化。
下圖是算法渲染不同分辨率視頻所需的運行時間(提升16倍分辨率),單位為ms。其中Ours為基礎算法,Ours-Fast是經(jīng)過簡化的快速版本。
這張表表示的是渲染目標為1080p分辨率時,算法不同步驟的運算時間。
與現(xiàn)行的同功能算法相比,4*4超神經(jīng)采樣算法在各個指標都領先。這些結(jié)果是在常用的4個視頻上經(jīng)過10次測試得出的。
網(wǎng)友吐槽:不能在通用CPU上運行的實時都不叫實時
盡管4*4超神經(jīng)采樣算法在低分辨率視頻實時渲染上有很好的表現(xiàn),而Facebook官方也宣稱這個算法突破了特殊硬件和技術(shù)的限制,在PC上就能運行。
但網(wǎng)友們依然吐槽,要達到實驗結(jié)果展示的“實時”渲染表現(xiàn),一塊英偉達Titan V是必須的。
而現(xiàn)在一塊Titan V官方售價3000美元左右,經(jīng)過不同廠商優(yōu)化過的,更是價格高昂。
難道“實時”只是有錢人的特權(quán)嗎?
Reddit網(wǎng)友呼吁,應該建立一個標準,只有在通用CPU上能實現(xiàn)到實時的,才能叫真實時。
那么,你認為這個實時渲染高分辨率算法的價值有多少呢?你愿意付出一塊Titan V的成本來實現(xiàn)這一算法嗎?
論文地址https://research.fb.com/publications/neural-supersampling-for-real-time-rendering/
成果演示https://research.fb.com/blog/2020/07/introducing-neural-supersampling-for-real-time-rendering/
- 具身智能洶涌,激光雷達爆單:頭部玩家600%年增長,出貨超20萬臺2025-08-08
- 智能座艙率先L3!AI Agent上車顛覆體驗,千里科技WAIC交卷2025-07-28
- 千里科技聯(lián)手階躍星辰、吉利發(fā)布下一代智能座艙Agent OS2025-07-26
- 老黃剛走,全球最強算力Robotaxi方案落地中國2025-07-24