只要一句話、一段文字,想讓奧巴馬說啥他就說啥
十三 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
“嘿!Siri,我能看看你的臉嗎?”
“沒問題,什么樣的臉我都能給你呈現(xiàn)?!?/p>
不僅如此,現(xiàn)在還可以根據(jù)你自己的聲音或是一段文字,再選擇一張臉,就能讓TA說話。
這個黑科技叫Neural Voice Puppetry,來自慕尼黑科技大學(xué)和馬普所。
只要一句話,一段文字,隨便一張臉就能說話
Neural Voice Puppetry是音頻驅(qū)動的面部視頻合成技術(shù)。
只要輸入一段音頻,就能根據(jù)它生成人物說話的視頻,而且還十分逼真。
下圖就是生成的奧巴馬演講視頻,從嘴型到說話的神態(tài)都非常自然。
給出一段文字,也可以生成人說話的視頻。
根據(jù)下面的這段文字,生成了美國四位總統(tǒng)的演講視頻,跟我們印象中他們說話的樣子如出一轍。
類似于這樣的技術(shù)之前也是有過,但從效果和功能上看,Neural Voice Puppetry取得了一定的進步。
與最先進的基于音頻驅(qū)動的面部視頻合成技術(shù)相比,該方法能夠適用于多個目標(biāo)。
與VOCA相比,只需要一個3D代理(proxy)作為中間步驟,并沒有對視頻做特殊處理。
和Speech2Vid相比,使用的是3D模型來保證輸出視頻的逼真程度。
和基于2D的“You said that?”(基于GAN)方法相比,雖然它們不需要3D模型就可以工作,但作者的這項工作能夠保證輸出視頻的3D一致性。
并且生成的是視頻,而不是標(biāo)準(zhǔn)化的圖像。
在人物表情非常扭曲的時候,輸出的結(jié)果也是非常穩(wěn)健的。
△觀看文章開頭視頻效果更佳
不僅如此,還能對不同語言做處理。
什么原理?
為了實現(xiàn)根據(jù)一句話就能再現(xiàn)逼真的面部視頻,研究人員采用3D面部模型作為面部運動的中間表示。
Neural Voice Puppetry的關(guān)鍵部分是基于聲音的面部表情估計,采用了一個兩階段的過程。
首先是Audio2ExpressionNet,根據(jù)DeepSpeech特征來估計每一幀的表征。
這個網(wǎng)絡(luò)的輸出是長度為32的音頻表征向量。
這個音頻表征是有時間噪聲的,使用一個表征感知過濾網(wǎng)絡(luò)進行過濾,該網(wǎng)絡(luò)可以與每幀表征估計網(wǎng)絡(luò)一起訓(xùn)練。
使用了5個核尺寸為3的一維卷積濾波器,將特征空間從32×8 、16×8、8×8、4×8、2×8到1×8依次縮小。
其次是Rendering network。
基于驅(qū)動人臉模型的表情預(yù)測,對目標(biāo)視頻圖像空間進行神經(jīng)紋理處理。
這一步包括兩個網(wǎng)絡(luò)。第一個網(wǎng)絡(luò)用于將從神經(jīng)紋理中采樣的神經(jīng)描述符轉(zhuǎn)換為RGB顏色值。第二個網(wǎng)絡(luò)將此圖像嵌入到目標(biāo)視頻幀中。
最后,采用了一種新的延遲神經(jīng)渲染(deferred neural rendering)技術(shù)來生成最終的輸出圖像。
下一步工作
雖然Neural Voice Puppetry對不同的音頻源和目標(biāo)視頻效果很好,但它仍然有局限性。
特別是在音頻流中有多個聲音的情況下,該方法會失效。
另外還有一個局限性是談話風(fēng)格較為固定。
因為研究人員假設(shè)目標(biāo)參與者在一個目標(biāo)序列中的談話風(fēng)格是不變得。
在后續(xù)的工作中,研究人員計劃從語音信號來估計說話風(fēng)格,以此來控制面部動作的表現(xiàn)力。
團隊介紹
△Justus Thies
Justus Thies,慕尼黑工業(yè)大學(xué)視覺計算組的博士后。2017年,獲得埃爾朗根-紐倫堡大學(xué)的博士學(xué)位,主要研究面部表情的無標(biāo)記運動捕捉及其應(yīng)用。近期專注于神經(jīng)圖像合成技術(shù),允許視頻編輯和創(chuàng)作。工作領(lǐng)域結(jié)合了計算機視覺、機器學(xué)習(xí)和計算機圖形學(xué)視覺。
△Mohamed Elgharib
Mohamed Elgharib,馬普所計算機圖形學(xué)部分。主要研究領(lǐng)域包括可視真實感渲染、3D重建及視頻后期制作等。
△Ayush Tewari
Ayush Tewari,馬普所計算機圖形學(xué)部門。
△Christian Theobalt
Christian Theobalt,馬普所圖形、視覺和視頻研究小組組長,沙爾大學(xué)計算機科學(xué)教授。
△Matthias Nie?ner
Matthias Nie?ner,慕尼黑工業(yè)大學(xué)教授,可視化計算小組。研究領(lǐng)域包括計算機視覺、圖形學(xué)和機器學(xué)習(xí)的交叉領(lǐng)域。對3D 重建、語義3D 場景理解、視頻編輯和人工智能驅(qū)動的視頻合成等尖端技術(shù)特別感興趣。
傳送門
論文地址:
https://arxiv.org/pdf/1912.05566.pdf
- 商湯林達華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計,讓70年經(jīng)驗“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機器人人人人人塞滿了!2025-08-08