火山引擎虛擬數(shù)字人平臺通過中國信通院首批數(shù)字人系統(tǒng)基礎能力評測
深耕AI數(shù)字人技術
6月21日,由內(nèi)容科技產(chǎn)業(yè)推進方陣、中國信通院云計算與大數(shù)據(jù)研究所、中國通信標準化協(xié)會TC602聯(lián)合主辦的“2022內(nèi)容科技成果發(fā)布會”落地線上。會上公布了首批數(shù)字人系統(tǒng)基礎能力評測結果,火山引擎虛擬數(shù)字人平臺榜上有名,在技術、工程化、安全保障等方面均滿足評測要求。
作為中國信通院為進一步推動產(chǎn)業(yè)界對數(shù)字人概念達成共識,提升其工程化落地能力而啟動的首屆評測,該評測共計48個測試項,主要通過“采用人員訪談、系統(tǒng)操作演示和材料審查”相結合的方法,分別從基礎技術能力、基礎工程化能力、基礎安全保障能力三大維度、綜合涵蓋語音技術能力、交互技術能力、易用可靠性以及形象版權保障、內(nèi)容風險控制等在內(nèi)的多項指標對參評數(shù)字人系統(tǒng)進行全面評估。
此次參與評測的火山引擎虛擬數(shù)字人平臺屬于火山語音“AI虛擬員工解決方案”的核心產(chǎn)品,方案以人機交互為核心,涵蓋語音識別、語義理解、對話交互、語音合成以及雙工控制等多項業(yè)界領先的核心技術,打造從形象、感知、理解、表達能力都趨近于真人的數(shù)字員工,為企業(yè)提供高度擬人化的客戶服務。此次平臺成功獲得信通院評測的權威認證,也充分表明火山語音支持下的數(shù)字人技術能力和產(chǎn)品成熟度獲得了業(yè)界認可。
深入了解火山引擎數(shù)字人,從形象類型劃分主要涵蓋2D、3D卡通、3D超寫實,其中2D數(shù)字人是由真人在專業(yè)錄影棚錄制的視頻訓練而成,AI驅(qū)動效果與真人幾乎無異,適用于嚴謹專業(yè)的業(yè)務場景;而3D卡通數(shù)字人則因其卡通化的外形,更能展現(xiàn)生動活潑的數(shù)字人個性,常用在輕松娛樂的場景;3D超寫實數(shù)字人介于兩者之間,一方面依托于快速突破的3D建模技術,外觀形象高度還原真人發(fā)膚,另一方面又保留了3D空間感和信息載體優(yōu)勢,適用于對形象空間感、3D特效或XR等信息載體要求較高的創(chuàng)新場景。
火山引擎數(shù)字人形象矩陣
除了形象特征的千差萬別,2D數(shù)字人和3D數(shù)字人的技術實現(xiàn)路徑也大有不同。2D數(shù)字人通過行業(yè)領先的非自回歸模型的唇形生成網(wǎng)絡,合成與輸入文本或語音完全匹配的唇形,有效減小誤差累積,準確率高達98.55%?!按送膺€通過頭部姿態(tài)與唇形的解耦實現(xiàn)頭部姿態(tài)的靈活控制,并借助光流插幀實現(xiàn)語義相關的肢體動作的自然過渡。讓火山引擎數(shù)字人具備業(yè)內(nèi)領先的自然表現(xiàn)力,目前整體自然度MOS可達3.8以上?!被鹕秸Z音團隊總結道。
對比而言,3D數(shù)字人則通過原畫、建模、綁定、AI訓練、渲染等流程制作,自研基于IPA的細粒度唇形驅(qū)動方案來實現(xiàn)高精度的唇形、表情驅(qū)動,目前唇形自然度MOS可達4.0;通過不斷打磨的Pose Matching算法實現(xiàn)同級動作的自然打斷與切換,靈活的圖層控制策略支持3D渲染結果的后期處理,整體自然度MOS可達3.8以上。
從場景適配出發(fā),目前火山引擎數(shù)字人包括“播報型數(shù)字人”和“交互型數(shù)字人”兩種類型。其中播報型數(shù)字人,即輸入文本或語音,就可生成自然生動的數(shù)字人播報視頻;交互數(shù)字人作為播報型數(shù)字人的形態(tài)升級,依托于火山語音長期積累的成熟語音交互技術,讓數(shù)字人“善聽”、“會說”、“能想”,與用戶面對面實時交互。
具體來說在語音識別方面,火山語音通過業(yè)內(nèi)領先的端到端語音識別模型,以及長期深耕金融、汽車、泛互等行業(yè)所積累的數(shù)據(jù)經(jīng)驗,在數(shù)十個領域中、真實場景數(shù)據(jù)反饋下,字準均可達到 92% 以上;語音合成方面,憑借行業(yè)優(yōu)勢的端到端交互式合成技術,細粒度還原真人韻律、笑聲、副語言等,對象感極強,測聽人員已無法分辨出合成的語音與真人錄音。綜合而言,目前交互數(shù)字人集成了全雙工語音交互鏈路,前向兼容語音以及文本輸入,后向兼容2D與3D數(shù)字人表現(xiàn)力,整體端到端交互延遲在500ms左右,性能效果達到業(yè)內(nèi)領先水平。未來火山引擎數(shù)字人還將集成火山視覺“可看”的能力,實現(xiàn)數(shù)字人語音交互向多模態(tài)交互的升級。
多模態(tài)交互數(shù)字人技術環(huán)路
如今火山語音“AI虛擬數(shù)字員工解決方案”已具備標準平臺的快速交付能力,面向金融、大消費、泛互等行業(yè)為客戶提供涵蓋“金融客服”、“智慧導覽”、“智能助理”、“虛擬直播”等場景細分解決方案,為用戶帶來全新的互動服務和便捷體驗。
火山引擎虛擬數(shù)字人平臺
在“激發(fā)無限創(chuàng)意,提升業(yè)務增長”的目標驅(qū)動下,火山引擎AI基于多年沉淀的人工智能技術,將音視頻、直播、AR等多種內(nèi)容形態(tài)下的創(chuàng)作能力,靈活高效地賦能企業(yè)內(nèi)部工具以及用戶產(chǎn)品中,持續(xù)為用戶體驗和業(yè)務增長注入創(chuàng)新勢能。未來,以此為基,火山語音在持續(xù)提供全球領先的語音AI技術能力以及卓越的全棧語音產(chǎn)品解決方案的同時,將繼續(xù)深耕AI數(shù)字人技術,不斷探索前沿科技與業(yè)務場景的高效結合,以實現(xiàn)更大的用戶價值。
- 超詳細!2025科技創(chuàng)變者大會最新議程公布!2025-08-21
- 中科慧遠發(fā)布CASIVIBOT,以九年積累開啟AOI與機器人協(xié)同的品質(zhì)檢測新時代2025-08-20
- 嚯!剛剛,張麻子陪我玩黑猴了2025-08-19
- 機器人全產(chǎn)業(yè)鏈接會 FAIR plus 2026媒體見面會在京召開2025-08-16