亮風臺CVPR 2019 oral presentation論文:端到端的投影儀光學補償
將于 6 月在美國長灘召開的CVPR 2019臨近,新的計算機視覺和模式識別算法成果不斷被披露,近日,AR產(chǎn)品與服務提供商亮風臺公布了投影AR算法研究最新成果,主要用于解決投影儀光學補償問題,即當投影屏幕不是理想的白色漫反射時,盡可能消除投影面上的圖案。
相關論文《End-to-end Projector Photometric Compensation》已經(jīng)入選CVPR 2019的oral presentation環(huán)節(jié)。數(shù)據(jù)顯示,今年有超過 5165 篇的大會論文投稿,最終錄取1299 篇,而oral presentation的入選率只有提交論文的5%左右。
與之前提出的傳統(tǒng)的方法相比,新成果在數(shù)值和質量效果上大幅提升,可以預見,該成果將成為投影AR技術應用落地提供重要的技術基礎。
事實上,這不是亮風臺第一次在投影AR算法上取得重要研發(fā)突破,去年,亮風臺和美國兩所科研單位聯(lián)合研發(fā)出一套新的投影儀-相機聯(lián)合標定方法,對于一個相機姿態(tài)僅僅需要一次投影采樣,使標定效率和實用性大大優(yōu)于之前的大部分標定系統(tǒng),其成果發(fā)布于國際頂級增強現(xiàn)實會議ISMAR。ISMAR的參與對象主要為學術界,來自于工業(yè)界的工作鳳毛麟角。
《End-to-end Projector Photometric Compensation》的重要貢獻主要在以下幾點:
1. 首次將投影儀光學補償問題闡述為一個端到端的深度學習問題,然后構造一個新穎的名為CompenNet的卷積神經(jīng)網(wǎng)絡(CNN)來隱式的學習這個復雜的補償函數(shù)。
2. 首次提出一個獨立于設備和實際投影的數(shù)據(jù)庫和評價基準,今后類似的工作可以在這個評價基準上統(tǒng)一比較,而不需要復現(xiàn)該研究中使用的設備和實際投影,以前的工作是沒有這樣的評價基準的。
3. 提供了一個預訓練的方法,將預訓練好的CompenNet遷移到新的投影屏幕和硬件設置上,只需要拍攝少量的采樣圖片就可以媲美甚至超過從零開始訓練CompenNet和傳統(tǒng)方法,這樣可以大量的節(jié)省采樣圖拍攝時間和訓練時間。
4. 在亮風臺提出的評價基準上比較了CompenNet和其他傳統(tǒng)的方法,以及一個通用的圖到圖遷移的深度學習框架pix2pix,實驗結果顯示在數(shù)值和質量效果上新方法都大幅度優(yōu)于其他參與比較的方法。
背景介紹
這篇工作主要解決投影儀光學補償問題,即當投影儀屏幕不是理想的白色漫反射時,屏幕的顏色和紋理會導致用戶看到失真的效果,如下圖1所示。
圖1. (a) 正常光照下的具有紋理和顏色的投影屏幕。(b) 投影儀投射的圖片(也是我們想要看到的效果)。(c) 相機拍攝到的,沒有補償?shù)耐队敖Y果,即將(b)直接投影到(a)上。(d) 我們模型計算出的補償圖。(e) 相機拍到的補償后的效果,即將(d)投影到(a)上。比較(c)和(e),可以看到明顯提升的效果和細節(jié)。
為了解決投影儀光學補償問題,一般是用一個相機來拍攝大量的投影儀投射的圖片,然后從這些拍到的和投射的圖片對中擬合出一個光學補償函數(shù),再將要投射的圖片經(jīng)過這個光學補償函數(shù)補償,最后由投影儀投射,這樣投射的補償正好可以抵消非理想屏幕的顏色和紋理和投影儀本身的非線性光學特性。
但是以上的光學過程過于復雜,所以很多傳統(tǒng)方法以及目前效果較好的算法,都是將這個過程簡化為投影儀像素與相機拍到的像素只是一一對應,然后獨立地對每個像素擬合一個光學補償函數(shù)。這樣的假設,往往忽略了很多重要信息,比如由于投影儀和相機跟屏幕的距離,投影儀相機輕微失焦和屏幕表面相互反射等因素,每一個投影儀的像素并不是跟每個相機像素一一對應,很可能一個投影儀像素覆蓋了幾個相機的像素,這樣的簡化勢必影響投影儀光學補償?shù)男Ч瑢嶒灥慕Y果也印證了這一點。
研究方法
為了避免過于簡化,我們采用一個新思路,即用CNN網(wǎng)絡來端到端隱式地學習這個復雜的光學補償函數(shù)。這樣的好處主要是:
1. CNN有足夠的模型復雜度來擬合復雜的光學過程。
2. CNN濾波器本身就對領域像素采樣,這樣我們不需要像傳統(tǒng)方法那樣進行像素一一對應的簡化。
3. 根據(jù)我們的數(shù)學推導,發(fā)現(xiàn)可以用一張相機拍到的屏幕照片
來表示投影屏幕本身的光學特性,然后將這張照片作為CompenNet的第二個輸入,指導CompenNet學習相機拍攝的失真圖
和屏幕光學特性
的關系, 如下圖2所示。
圖2. CompenNet的結構。比較訓練(左)和補償(右)過程,我們發(fā)現(xiàn)學習從相機拍攝的未補償圖到投影儀輸入圖片的反映射->,就是學習從投影儀輸入圖片(想要用戶看到的效果)到補償圖片的映射->。
網(wǎng)絡訓練和光學補償?shù)牧鞒倘缦聢D3所示:
圖3. 網(wǎng)絡訓練和光學補償?shù)牧鞒虉D。(a) 投影然后拍攝一張投影表面的圖和一系列具有紋理的采樣圖。(b) 用拍攝到和投射的圖片對訓練CompenNet 。(c) 用訓練好的CompenNet補償輸入的圖片(也是想要用戶看到效果), 然后將補償后的圖片投影。
實驗結果:
圖4. 相機拍攝的補償效果比較。第一列:投影儀屏幕表面紋理。第二列:相機拍攝的未補償效果。第三到第六列,相機拍攝的不同補償方法補償后的效果。第七列,投影儀的輸入,即想要用戶看到的效果。
表1. 不同補償方法的數(shù)值比較,以下數(shù)值是平均了來自于24個不同環(huán)境設置,即光照,投影儀、相機姿態(tài)和投影儀表面紋理的結果。每個環(huán)境設置有500張訓練圖,200張測試圖??梢悦黠@看到在投影儀光學補償任務上,我們的方法優(yōu)于傳統(tǒng)方法和pix2pix。
表2. CompenNet預訓練與從新訓練的比較。我們只采用32個訓練樣本并只訓練500個循環(huán),總共耗時170秒??梢悦黠@看到,微調預訓練模型的結果優(yōu)于從新訓練CompenNet,而且因為只需要少量樣本和訓練時間,在實際使用中也更便捷。
進一步了解請查看詳情:
論文:https://arxiv.org/pdf/1904.04335.pdf
補充材料:http://www.dabi.temple.edu/~hbling/publication/CompenNet_sup.pdf
源代碼:https://github.com/BingyaoHuang/CompenNet
— 完 —
- 長城汽車自研芯片點亮!提前布局下一代架構RISC-V,魏建軍:不能再受制于人2024-09-27
- 騰訊云發(fā)布自研大數(shù)據(jù)高性能計算引擎Meson,性能最高提升6倍2024-07-04
- Intel2024-03-18
- 數(shù)字員工全新發(fā)布 加速企業(yè)轉型2024-01-15