生成逼真3D人偶,居然不用3D形狀建模,還能學(xué)會你的舞步 | 三星CVPR Oral
靈魂注入。
3D栗子 發(fā)自 凹非寺
量子位 出品 | 公眾號 QbitAI
當(dāng)你站在空曠的屋子里,眼神堅定地望向遠(yuǎn)方。
有只AI已經(jīng)獲得了你的影像,并合成了一座3D全身像。
后來,你開始解放天性,自在舞動,卻驚訝地發(fā)現(xiàn):
那個虛擬的自己,也在用同樣的姿勢起舞,并且?guī)缀鹾湍阃?/strong>。
一切仿佛與生俱來,像是你的靈魂注入了它的身體。
這是一項中選了CVPR 2019 Oral的研究,但不止是因?yàn)樾Ч普妫?/p>
更重要的是,它沒有用到3D形狀建模?(Explicit 3D Shape Modeling) ,而是依靠2D紋理映射?(2D Texture Map) ,來完成渲染的。
而在這樣的情況下,渲染依然逼真。就算是渲染沒見過的新姿勢,也不在話下。
到底是怎么做到的?
優(yōu)秀的腦回路
論文寫到,這是介于經(jīng)典圖形學(xué)方法與深度學(xué)習(xí)方法之間的一條路。
其中,圖形學(xué)的思路就是,把幾何?(Geometry) 跟紋理?(Texture) 分開處理。
幾何是3D的,好比白色的人體雕塑,紋理是2D的,好比外面的皮膚。
而神經(jīng)網(wǎng)絡(luò)的任務(wù),只限于預(yù)測從紋理到輸出圖之間,需要怎樣的圖像形變/扭曲 (Warping) 。換句話說,把2D“皮膚”貼到3D人類的身上。
具體來講,那是一個全卷積網(wǎng)絡(luò),角色是生成器?(上圖黃色部分) 。它要根據(jù)輸入的人類姿態(tài),以及攝像頭參數(shù),為人體的各個特征點(diǎn),生成2D紋理坐標(biāo)。
用這些紋理坐標(biāo),可以預(yù)測出2D的RGB圖像。
反正,最終顯現(xiàn)的效果,也是一幀接一幀的2D圖。每一幀的角度有所不同,看去便是3D人像了:
就這樣,完美避開了3D形狀建模。
而訓(xùn)練過程中,網(wǎng)絡(luò)會把每一次預(yù)測出的2D圖,和Ground Truth做對比,再把損失 (Losses) 反向傳播回到生成器里,增強(qiáng)預(yù)測能力。模型是用多視角視頻數(shù)據(jù)來訓(xùn)練的。
訓(xùn)練完成后,就算你擺出AI沒見過的新姿勢,它也能做出成功的渲染。
團(tuán)隊說那是因?yàn)?,保?strong>顯式的紋理表征?(Explicit Texture Representation) ,有助于提升泛化能力。
當(dāng)然,沒做3D形狀建模,也不代表全程都在2D中度過。
別忘了,和2D紋理搭配食用的,是3D人體幾何。也就是說,人類的姿態(tài)估計,是3D姿態(tài)估計。
這一部分,團(tuán)隊從大前輩DensePose那里,借用了精髓:把攝像頭拍下的2D圖中,人類的每個像素點(diǎn),都映射到3D人體表面的特定位置上。
于是就有了3D姿態(tài)。還記得么,上面的2D紋理預(yù)測網(wǎng)絡(luò),輸入就是姿態(tài)。
不用3D形狀建模的3D人像合成方法,達(dá)成。
引用一句俗語:意料之外,情理之中。
來自俄羅斯
這個思路清新流暢的研究,來自莫斯科的三星AI中心,以及斯科爾科沃科技研究院。團(tuán)隊成員有12人之多。
如果你想要更深刻地感受這個模型的魅力,請從傳送門前往觀賞。
論文傳送門:
https://arxiv.org/abs/1905.08776
主頁傳送門:
https://saic-violet.github.io/texturedavatar/
前輩DensePose傳送門:
http://densepose.org/
- 馬云正式卸任后,阿里巴巴開盤跌0.87%2019-09-10
- AI獨(dú)角獸云知聲,已完成一期科創(chuàng)板IPO輔導(dǎo)2019-10-17
- 亞馬遜在華拓展云計算團(tuán)隊,挑戰(zhàn)阿里巴巴和騰訊2019-10-16
- IDC:今年上半年中國公有云服務(wù)市場規(guī)模達(dá)54.2億美元2019-11-07