讓模糊圖片變視頻,找回丟失的時(shí)間維度,MIT這項(xiàng)新研究簡(jiǎn)直像魔術(shù)
曉查 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
在拍照時(shí)我們常常會(huì)遇到這樣的苦惱:由于設(shè)置的快門時(shí)間太長(zhǎng),快速運(yùn)動(dòng)的物體會(huì)在身后產(chǎn)生嚴(yán)重的拖影。
除非是為了特殊的藝術(shù)效果,一般來說這張照片就報(bào)廢了。
然而來自MIT的研究人員卻告訴我們,拍糊了的照片不要扔,丟給這個(gè)神經(jīng)網(wǎng)絡(luò),還你一份運(yùn)動(dòng)視頻。拖影里包含的信息其實(shí)可以找回丟失的時(shí)間維度。
他們提出的模型可以從運(yùn)動(dòng)模糊的圖像中重新創(chuàng)建視頻。論文第一作者說:“我們能夠恢復(fù)這個(gè)細(xì)節(jié)幾乎就像魔術(shù)一樣?!?/p>
不僅如此,作者還表示,這種模型不僅可以解決時(shí)間維度上的損失,還能挽救空間維度上的損失。未來這種技術(shù)甚至可能從2D醫(yī)學(xué)圖像中檢索3D數(shù)據(jù),只用一張X光片得到CT掃描的信息。
目前這篇論文已經(jīng)被計(jì)算機(jī)視覺頂會(huì)ICCV 2019收錄。
恢復(fù)視頻并不容易
照片和視頻通常會(huì)將時(shí)空折疊到更低維度上,我們將之稱為“投影”(projection)。
比如拍攝X光片,是把3D圖片投影到一張2D底片上,這是空間上的投影。長(zhǎng)時(shí)間曝光,讓星星在照片上留下常常的軌跡,這是時(shí)間上的投影。
投影過程中會(huì)丟失信息,下面的向量投影中,我們就損失掉了另一個(gè)維度的信息,而且完全無法恢復(fù)。
但是大多數(shù)物體的尺寸通常比其在圖像中拖影的尺寸小得多,研究人員可以通過投影的信號(hào)生成恢復(fù)原貌的概率模型。
之前,也是來自MIT一項(xiàng)研究,用一種“角落照相機(jī)”的算法可以檢測(cè)到拐角處的人。在這樣的場(chǎng)景中,由于邊緣遮擋物的存在,場(chǎng)景的反射光會(huì)沿空間維度塌陷。
但是這種算法并不完善,目前僅能根據(jù)模糊圖像恢復(fù)一些簡(jiǎn)單的線條。而最新的這項(xiàng)研究則可以較清晰地恢復(fù)物體的原貌。
從模糊中恢復(fù)真相
MIT的研究人員收集了一個(gè)由35個(gè)視頻組成的數(shù)據(jù)集,其中有30個(gè)人在指定區(qū)域中行走。他們將所有視頻折疊成用于訓(xùn)練和測(cè)試模型的投影。
模型從投影中精確地重新恢復(fù)了人行走過程中的24幀。而且該模型似乎了解到,隨著時(shí)間而變暗和變寬的像素可能對(duì)應(yīng)于一個(gè)人在靠近相機(jī)。
此外,他們還在人臉數(shù)據(jù)集FacePlace上進(jìn)行了測(cè)試,從左右擺動(dòng)高度模糊的圖像中恢復(fù)出五官樣貌。
如果圖像中有兩個(gè)物體在運(yùn)動(dòng),該算法也能處理。
研究人員讓兩個(gè)MNIST手寫體數(shù)字相互運(yùn)動(dòng),圖像甚至模糊到連一般人也看不出里面是什么,但AI模型不但推斷出了數(shù)字的筆畫形狀,還分析出了兩個(gè)數(shù)字的運(yùn)動(dòng)方向。
原理
實(shí)現(xiàn)從2D投影到恢復(fù)3D時(shí)空的的網(wǎng)絡(luò)架構(gòu)如下圖所示:
該網(wǎng)絡(luò)有三個(gè)參數(shù)化函數(shù):qψ(·|·) 表示變分后驗(yàn)分布,pφ(·|·) 表示先驗(yàn)分布,gθ(·, ·)表示反投影網(wǎng)絡(luò)。z在訓(xùn)練時(shí)從q網(wǎng)絡(luò)中采樣,在測(cè)試時(shí)從p網(wǎng)絡(luò)中采樣。
對(duì)于后驗(yàn)分布的參數(shù)編碼器q,其中包含一系列3D跨度卷積運(yùn)算符和Leaky RELU激活函數(shù),以獲得μψ和σψ兩個(gè)分布參數(shù)。
條件先驗(yàn)編碼器p以類似的方式實(shí)現(xiàn),因?yàn)闆]有時(shí)間維度信息,它只有2D跨度卷積。
對(duì)于反投影函數(shù)gθ(x, z),它使用UNet型的體系結(jié)構(gòu)計(jì)算x的每個(gè)像素特征。UNet分為兩個(gè)階段:在第一階段,應(yīng)用一系列2D跨度卷積算子提取多尺度特征;第二階段應(yīng)用一系列2D卷積和上采樣操作,合成x和更多數(shù)據(jù)通道。
傳送門
相關(guān)報(bào)道:
https://www.eurekalert.org/pub_releases/2019-10/miot-rd101619.php
論文地址:
https://arxiv.org/abs/1909.00475