網(wǎng)易伏羲三項(xiàng)研究入選CVPR:AI感知表情能力將達(dá)到人類水平
應(yīng)用場景包括測謊、性格評估、自閉癥檢測、表演能力評估等眾多與人臉表情相關(guān)的領(lǐng)域。
人工智能頂級會議CVPR 2021現(xiàn)已公布論文錄取結(jié)果,網(wǎng)易伏羲共有3篇論文入選。
其中,由網(wǎng)易伏羲虛擬人團(tuán)隊(duì)發(fā)表的一項(xiàng)研究頗為引人關(guān)注。該研究提出了一種人類表情編碼的創(chuàng)新提取方法,大幅提升了AI感知人類表情的精度。隨著該技術(shù)的發(fā)展,未來,AI感知人類表情的能力甚至有望超越人類感知平均水平。
這一技術(shù)的應(yīng)用場景十分廣泛,包括測謊、性格評估、自閉癥檢測、表演能力評估等眾多與人臉表情相關(guān)的領(lǐng)域。
過去,學(xué)術(shù)界對人類表情的識別和描述,一般源于兩種傳統(tǒng)理論:一種源自150年前的達(dá)爾文時期,學(xué)者們從心理學(xué)出發(fā),基于高興、驚訝、生氣、悲傷等有限的情緒類別描述人類表情;另一種起源于上世紀(jì)70年代末,知名心理學(xué)家Paul Ekman博士從解剖學(xué)角度出發(fā),基于人臉肌肉運(yùn)動,用27種動作單元來描述人類表情。
從數(shù)量上看,傳統(tǒng)理論對人類表情的描述極為有限。網(wǎng)易伏羲的人類表情編碼提取方法,則以人工智能的方式進(jìn)一步突破了這一瓶頸。通過學(xué)習(xí)大量的人臉表情數(shù)據(jù),AI可以無窮盡、無上限地感知人類表情。
為了讓AI更懂人類的喜怒哀樂,技術(shù)人員還需要大量細(xì)顆粒度、人工標(biāo)注的人臉表情數(shù)據(jù)用于算法參數(shù)迭代,進(jìn)一步提升表情編碼的精度。為此,網(wǎng)易伏羲正在開發(fā)一個游戲化標(biāo)注小程序,讓普通用戶能夠在游戲的過程中,輕輕松松地參與表情標(biāo)注,加速推進(jìn)人類表情領(lǐng)域的人工智能研究與應(yīng)用。
網(wǎng)易伏羲成立于2017年,是國內(nèi)從事游戲與文創(chuàng)AI研究和應(yīng)用的頂尖機(jī)構(gòu),研究方向包括強(qiáng)化學(xué)習(xí)、圖像動畫、自然語言、虛擬人、用戶畫像、大數(shù)據(jù)平臺等領(lǐng)域。據(jù)了解,此次CVPR中稿論文展示的部分科研成果,已經(jīng)在網(wǎng)易多個產(chǎn)品中成功落地。未來,網(wǎng)易伏羲將繼續(xù)以技術(shù)落地為導(dǎo)向,用科研成果推動產(chǎn)品創(chuàng)新。
附:網(wǎng)易伏羲三篇入選CVPR2021論文簡介
1、《去ID信息的表情編碼》
(Learning a Facial Expression Embedding Disentangled from Identity)
論文簡介:
本文研究的主要目的,是獲取一種緊致的,且與ID信息無關(guān)的人臉表情表征。
本研究中,網(wǎng)易伏羲虛擬人團(tuán)隊(duì)首次提出,將表情特征建模為從ID身份特征出發(fā)的一個差值向量,以這種顯式方式去掉ID的影響。為此,本研究設(shè)計(jì)了一個偽孿生結(jié)構(gòu)的網(wǎng)絡(luò)去學(xué)習(xí)這種差值。同時,為了加強(qiáng)網(wǎng)絡(luò)在深層的學(xué)習(xí)能力,本研究通過高階多項(xiàng)式的方法替代一般的全連接層去完成從高維到低維的映射。另外,考慮到不同標(biāo)注者存在一定標(biāo)注噪音,本研究增加了眾包層學(xué)習(xí)不同標(biāo)注者的偏差,使學(xué)習(xí)到的表情表征更加魯棒。
定性和定量的實(shí)驗(yàn)結(jié)果表明,該方法在FEC數(shù)據(jù)集上超越了前沿水平。同時在情緒識別、圖像檢索以及人臉表情生成等應(yīng)以用上都有不錯的效果。
下圖展示了該工作的表情表征編碼的效果,輸入一張檢索(Query)表情,通過比較表情編碼的距離,從一個足夠大的人臉數(shù)據(jù)集中檢索出與之最相似的一些表情(Results),下圖中展示了TOP5的結(jié)果。
由圖可知,所檢索出來的圖像和目標(biāo)表情非常接近,說明本研究提出的表情表征編碼可以感知微妙且精細(xì)的表情。
2、《基于稠密運(yùn)動場的高清說話人臉視頻生成》
(Flow-based One-shot Talking Face Genaration with a High-resolution Audio-visual Dataset)
論文簡介:
One-shot說話人臉合成的目的,是給定任意一張人臉圖像和任意一段語音,合成具有語音口型同步、眉眼頭動自然的高清說話人臉視頻。之前工作合成的視頻分辨率之所以一直受到限制,主要有兩個原因:1、目前沒有合適的高清視聽數(shù)據(jù)集。2.之前的工作使用人臉特征引導(dǎo)人臉圖像合成,而對于高分辨率圖像來說特征太稀疏。
為了解決上述問題,本研究首先收集了一個無約束條件下(in-the-wild)的高清人臉音視數(shù)據(jù)集YAD,該數(shù)據(jù)集比之前無約束條件下的數(shù)據(jù)集更加高清,也比之前實(shí)驗(yàn)室環(huán)境下(in-the-lab)數(shù)據(jù)集包含有更多的人物ID。
基于高清數(shù)據(jù)集YAD,本研究借助三維人臉重建(3DMM)將整個方法分成表情參數(shù)合成和視頻圖像合成兩個階段;在表情參數(shù)合成階段中,使用多任務(wù)的方法合成嘴唇運(yùn)動參數(shù)、眉眼運(yùn)動參數(shù)和頭部運(yùn)動參數(shù)。在視頻圖像合成階段,則使用稠密運(yùn)動場替代人臉關(guān)鍵點(diǎn)引導(dǎo)人臉圖像生成。定性和定量結(jié)果表明,與之前的工作相比,本研究可以合成更加高清的視頻。以下二圖分別展示方法的流程圖和視頻合成效果。
3、《神經(jīng)風(fēng)格畫筆》
(Stylized Neural Painting)
論文簡介:
網(wǎng)易伏羲與密歇根大學(xué)合作研究,提出了一種圖像到繪畫的轉(zhuǎn)換方法。該方法可以生成風(fēng)格可控、生動逼真的繪畫作品。不同于神經(jīng)風(fēng)格遷移方法,網(wǎng)易伏羲在參數(shù)化的條件下處理這種藝術(shù)創(chuàng)作過程,并產(chǎn)生一系列具有物理意義的畫筆參數(shù)。
由于經(jīng)典的矢量渲染是不可微的,因此我們設(shè)計(jì)了一種全新的神經(jīng)可微渲染器。它可以模仿矢量渲染器的行為,然后將畫筆預(yù)測轉(zhuǎn)換為參數(shù)搜索過程,即最大化輸入與渲染輸出之間的相似度。
實(shí)驗(yàn)表明,通過該方法生成的繪畫在整體外觀、局部紋理上都具有很高的保真度;該方法也可以與神經(jīng)風(fēng)格遷移共同優(yōu)化,后者可以進(jìn)一步遷移其他圖像的視覺樣式。