靠網(wǎng)上曬的景點照就能還原3D建模,浙大團隊這是要帶我們云旅游?|SIGGRAPH 2022直接用于電影游戲和VR生產(chǎn)線
可直接用于電影游戲和VR生產(chǎn)線
夢晨 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
以NeRF為代表的神經(jīng)渲染技術(shù)高速發(fā)展,學(xué)界已經(jīng)不滿足合成幾個新視角讓照片動起來了。
接下來要挑戰(zhàn)的是根據(jù)照片直接輸出3D模型,可以直接導(dǎo)入到電影、游戲和VR等圖形生產(chǎn)線里的那種。
所用照片不是出自高質(zhì)量數(shù)據(jù)庫,就是直接從網(wǎng)上搜集游客拍攝的各大景點,設(shè)備、天氣、距離角度等都會不一致。
生成的結(jié)果遠看結(jié)構(gòu)完整,近看細節(jié)豐富,如果你有VR設(shè)備也可以在Demo中直接預(yù)覽3D版。
這項最新突破由浙江大學(xué)和康奈爾大學(xué)團隊合作完成,登上圖形學(xué)頂會SIGGRAPH 2022。
而在這之前,同類技術(shù)生成的3D模型連形狀完整都做不到。
看到這里,網(wǎng)友紛紛表示這個領(lǐng)域的進展比人們想象的要快。
“慢點學(xué),等等我”。
那么,這項研究靠什么取得了突破?
融合兩種采樣方式
具體來說,這項研究的基本框架借鑒了NeurIPS 2021上的NeuS,一種把隱式神經(jīng)標(biāo)準(zhǔn)和體積渲染結(jié)合起來的方法。
但是NeuS使用基于球體的采樣(Sphere-based sampling)方法,對于近景、小物體來說還算適合。
用于結(jié)構(gòu)復(fù)雜的大型建筑物的話會有大量采樣點采在空白區(qū)域,增加大量不必要的計算壓力。
為解決這個問題,研究人員提出體素引導(dǎo)(Voxel-guided)和表面引導(dǎo)(Surface-guided)混合的新采樣方法。
體素引導(dǎo)可以避免不必要的浪費,訓(xùn)練時所需射線(Traning ray)可以減少30%。
再結(jié)合表面引導(dǎo)增加真實曲面周圍的采樣密度,幫助神經(jīng)網(wǎng)絡(luò)更好擬合,避免丟失細節(jié)。
在消融實驗中可以看到,僅使用體素引導(dǎo)方法收斂的比基于球體的方法快,但不如混合方法細節(jié)豐富。
與之前同類研究對比,新方法生成模型的完整性和細節(jié)方面更出色。
訓(xùn)練速度上也有明顯優(yōu)勢,特別是在大型場景墨西哥城美術(shù)宮(PBA)。
△Ours為完全收斂結(jié)果,帶小人圖標(biāo)的是訓(xùn)練過程中一個檢查點
當(dāng)然,新方法也不是完全沒有缺點。
一個繼承自NeRF的局限性是,如果相機位置校準(zhǔn)有偏差會影響最終結(jié)果。
還有一個難以解決的問題,就是照片拍不到的建筑物背面和內(nèi)部就無法精確重建了。
One More Thing
最后再補充一點,浙大團隊中一些成員,之前還研究了神經(jīng)3D人體重建。
可應(yīng)用于為體育比賽提供自由視角的視頻重放。
也是666了。
論文地址:
https://arxiv.org/abs/2205.12955
GitHub倉庫:
https://zju3dv.github.io/neuralrecon-w/
參考鏈接:
[1]https://zju3dv.github.io/neuralbody/
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長度,推理能力刷紀(jì)錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語言難題,2300種語言數(shù)字化計劃正在推進2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對1億年薪挖人,使命感比鈔票更重要2025-08-18