照片你隨便拍,「光影」我任意調(diào),MIT谷歌新研究,器材黨老法師看了會沉默
「打光」新方法:神經(jīng)光線傳輸
金磊 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
在攝影這件事上,「光影」簡直不要太重要。
畢竟大師們攝影作品,大多都是對「光」和「影」的拿捏。
△來自俄羅斯攝影師George Mayer
而最近,MIT 和谷歌等機構聯(lián)手提出了一種用神經(jīng)網(wǎng)絡「打光」的新方法,大大降低了對「光影」拿捏的門檻——神經(jīng)光線傳輸?(Nerual Light Transport,NLT)。
例如下圖所示,只要拍好人物照片,無論背景如何轉(zhuǎn)換,都可以相應的調(diào)節(jié)人物身上的「光影」。
去背景后的「AI 打光」效果更加明顯。
還有這樣的。
雖說「打光」效果是出來了,但這畫風…有點像陰間的東西了。
言歸正傳,繼續(xù)聊聊 NLT 這項技術。
NLT——拿捏光線的一把好手
光線傳輸(LT)可以描述一個場景中,物體在不同光照和方向下所呈現(xiàn)出來的樣子。
而完整地了解一個場景的 LT,還可以實現(xiàn)任意光照下的新視圖合成。
于是,MIT 和谷歌的研究人員基于圖像 LT 采集(以人體為主),提出了一種半?yún)?shù)的深度學習框架,來學習 LT 的神經(jīng)表示,名曰NLT。
總體而言,NLT 可以單獨或同時完成以下兩項任務:
- 用定向光或HDRI圖,重新照亮場景的光線真實性。
- 合成具有視圖依賴性效果的新視圖。
來看下 NLT 在不同任務下的效果。
首先是「定向重打光」?(Directional Relighting)。
可以看到人物在光線的變化下,陰影、高亮的變化非常自然。
接下來,是基于「背景圖的重打光」?(Image-Based Relighting)。
從背景圖中,大致可以判斷光源(太陽)的方向,而隨著背景圖的轉(zhuǎn)動,人物身上的陰影也會隨之發(fā)生改變。
最后,是「視圖合成+同步光源」?(View Synthesis & Simultaneous)。
除了視覺效果驚艷之外,從定性角度來看,NLT 方法也取得了不錯的效果。
例如,在「重打光」(Redlighting)任務中,與其它基線方法相比,在 PSNR 和 SSIM 兩個指標中都取得了最先進的結果。
同樣,在「視圖合成」任務中,NLT 的結果也是相當不錯。
那么,NLT 具體是如何實現(xiàn)這般效果的呢?
NLT模型:「查詢」、「觀測」兩步走
NLT 的模型網(wǎng)絡主要由2條路徑構成,分別是查詢路徑?(Query Path)和觀測路徑?(Observation Path)。
「觀測路徑」將附近的 K 個觀測值作為輸入,在目標光和觀察方向周圍采樣,并將它們編碼成多尺度特征,匯集起來用來消除對其順序和數(shù)量的依賴。
接下來,這些匯集起來的特征將被連接到 「查詢路徑 」的特征激活上。
這條路徑將所需的光線和觀察方向,以及物理上精確的 disue base 作為輸入。
「查詢路徑」預測了一個殘差圖,該殘差圖被添加到diuse base上,用來產(chǎn)生紋理渲染。
最后,通過將深度神經(jīng)網(wǎng)絡嵌入到UV紋理空間中,便可以合成與可見光線和觀看角度對應的紋理空間RGB圖像。
華人小哥一作
這項研究的第一作者,是來自MIT的博士生,張修明。
張修明目前在 MIT 計算機科學與人工智能實驗室(CSAIL),從事計算機視覺和計算機圖形學領域的工作,尤其對重光照、視圖合成和材料建模感興趣。
另一位主要作者是Sean Fanello。
Sean Fanello是一名研究科學家,也是谷歌的經(jīng)理,在谷歌領導容量性能捕獲方面的工作。
研究興趣主要包括數(shù)字人類、體積重建、高質(zhì)量的深度傳感和非剛性跟蹤。
最后,項目將在近日開源,感興趣的朋友持續(xù)關注下方參考鏈接中的信息更新。
參考鏈接:
http://nlt.csail.mit.edu/
- 商湯林達華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設計,讓70年經(jīng)驗“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機器人人人人人塞滿了!2025-08-08