讓模糊圖片變視頻,找回丟失的時間維度,MIT這項新研究簡直像魔術
曉查 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
在拍照時我們常常會遇到這樣的苦惱:由于設置的快門時間太長,快速運動的物體會在身后產(chǎn)生嚴重的拖影。
除非是為了特殊的藝術效果,一般來說這張照片就報廢了。
然而來自MIT的研究人員卻告訴我們,拍糊了的照片不要扔,丟給這個神經(jīng)網(wǎng)絡,還你一份運動視頻。拖影里包含的信息其實可以找回丟失的時間維度。
他們提出的模型可以從運動模糊的圖像中重新創(chuàng)建視頻。論文第一作者說:“我們能夠恢復這個細節(jié)幾乎就像魔術一樣?!?/p>
不僅如此,作者還表示,這種模型不僅可以解決時間維度上的損失,還能挽救空間維度上的損失。未來這種技術甚至可能從2D醫(yī)學圖像中檢索3D數(shù)據(jù),只用一張X光片得到CT掃描的信息。
目前這篇論文已經(jīng)被計算機視覺頂會ICCV 2019收錄。
恢復視頻并不容易
照片和視頻通常會將時空折疊到更低維度上,我們將之稱為“投影”(projection)。
比如拍攝X光片,是把3D圖片投影到一張2D底片上,這是空間上的投影。長時間曝光,讓星星在照片上留下常常的軌跡,這是時間上的投影。
投影過程中會丟失信息,下面的向量投影中,我們就損失掉了另一個維度的信息,而且完全無法恢復。
但是大多數(shù)物體的尺寸通常比其在圖像中拖影的尺寸小得多,研究人員可以通過投影的信號生成恢復原貌的概率模型。
之前,也是來自MIT一項研究,用一種“角落照相機”的算法可以檢測到拐角處的人。在這樣的場景中,由于邊緣遮擋物的存在,場景的反射光會沿空間維度塌陷。
但是這種算法并不完善,目前僅能根據(jù)模糊圖像恢復一些簡單的線條。而最新的這項研究則可以較清晰地恢復物體的原貌。
從模糊中恢復真相
MIT的研究人員收集了一個由35個視頻組成的數(shù)據(jù)集,其中有30個人在指定區(qū)域中行走。他們將所有視頻折疊成用于訓練和測試模型的投影。
模型從投影中精確地重新恢復了人行走過程中的24幀。而且該模型似乎了解到,隨著時間而變暗和變寬的像素可能對應于一個人在靠近相機。
此外,他們還在人臉數(shù)據(jù)集FacePlace上進行了測試,從左右擺動高度模糊的圖像中恢復出五官樣貌。
如果圖像中有兩個物體在運動,該算法也能處理。
研究人員讓兩個MNIST手寫體數(shù)字相互運動,圖像甚至模糊到連一般人也看不出里面是什么,但AI模型不但推斷出了數(shù)字的筆畫形狀,還分析出了兩個數(shù)字的運動方向。
原理
實現(xiàn)從2D投影到恢復3D時空的的網(wǎng)絡架構如下圖所示:
該網(wǎng)絡有三個參數(shù)化函數(shù):qψ(·|·) 表示變分后驗分布,pφ(·|·) 表示先驗分布,gθ(·, ·)表示反投影網(wǎng)絡。z在訓練時從q網(wǎng)絡中采樣,在測試時從p網(wǎng)絡中采樣。
對于后驗分布的參數(shù)編碼器q,其中包含一系列3D跨度卷積運算符和Leaky RELU激活函數(shù),以獲得μψ和σψ兩個分布參數(shù)。
條件先驗編碼器p以類似的方式實現(xiàn),因為沒有時間維度信息,它只有2D跨度卷積。
對于反投影函數(shù)gθ(x, z),它使用UNet型的體系結構計算x的每個像素特征。UNet分為兩個階段:在第一階段,應用一系列2D跨度卷積算子提取多尺度特征;第二階段應用一系列2D卷積和上采樣操作,合成x和更多數(shù)據(jù)通道。
傳送門
相關報道:
https://www.eurekalert.org/pub_releases/2019-10/miot-rd101619.php
論文地址:
https://arxiv.org/abs/1909.00475
- 腦機接口走向現(xiàn)實,11張PPT看懂中國腦機接口產(chǎn)業(yè)現(xiàn)狀|量子位智庫2021-08-10
- 張朝陽開課手推E=mc2,李永樂現(xiàn)場狂做筆記2022-03-11
- 阿里數(shù)學競賽可以報名了!獎金增加到400萬元,題目面向大眾公開征集2022-03-14
- 英偉達遭黑客最后通牒:今天必須開源GPU驅動,否則公布1TB機密數(shù)據(jù)2022-03-05