這是兩會上最高科技的主播!不會累、不會失誤,逼真得不像AI
坐姿、站姿播報零失誤,360度取景也hold得住
金磊 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
什么樣的主播水平,可以擔(dān)當(dāng)新華社「兩會」新聞播報重任?
這個AI合成主播就可以——坐姿、站姿零失誤播報是基操,而且還是3D,360度取景也hold得住。
她叫“新小微”,是全球第一個?3D+AI 合成主播,在兩會召開之際上線,為全國觀眾帶來了最新的兩會新聞資訊報道。
話不多說,先來看下她的業(yè)務(wù)能力。
舉止端莊,神情自然,近距離鏡頭前大方得體。
360°多角度取景,無死角完美呈現(xiàn)。
走路進場,站姿報道輕松拿下。
這就是搜狗分身最新的技術(shù)進展——基于AI算法實現(xiàn)實時驅(qū)動,打造高逼真、高靈活、高可控的3D AI合成主播。
“新小微”的誕生過程
我們先近距離觀察一下新小微的細節(jié)。
可以看到,在超近鏡頭下,新小微的發(fā)絲、睫毛,甚至是毛孔都是清晰可見。
如此“高清”效果,又是如何打造的呢?
首先,是基于真人原型采集海量數(shù)據(jù)。
新小微的真人原型,是新華社記者趙琬微。
趙琬微戴著數(shù)據(jù)采集頭盔,幾百個攝像頭對其身體各個部位,360度全方位“打點”掃描。
這樣做的目的,是采集每一處細節(jié)信息,并對其多種形態(tài)的表情和動作,進行細致入微地捕捉記錄。
采集完數(shù)據(jù)過后,便是生成高逼真度的3D 數(shù)字人模型。
這個過程中,采用了行業(yè)領(lǐng)先的掃描還原算法,以及面部肌肉驅(qū)動、表情肢體捕捉等技術(shù)。
最后,通過搜狗分身的端到端多模態(tài)生成算法,對3D數(shù)字人模型進行實時文本驅(qū)動,也就是說,只要給到一個文本,就能輸出一個視頻或者視頻流。
并確保在此基礎(chǔ)之上,渲染后的面部表情唇動、肢體動作和語言表達能力,能夠?qū)崿F(xiàn)高度契合。
和游戲、影視中的3D數(shù)字人的區(qū)別
“新小微”的誕生,或許會讓你聯(lián)想到我們在游戲、影視中經(jīng)??吹降?D數(shù)字人。
△《爵跡》中的角色
然而,“新小微”和這些3D數(shù)字人存在兩大方面的區(qū)別。
首先,3D模型的制作技術(shù)不同,帶來的逼真效果不同。
很多做寫實類型的3D模型,都是采用blendshapp或骨骼動畫去完成,做出來的面部表情和身體動作就不是特別逼真。
而搜狗采用的是全球最領(lǐng)先的肌肉模型來完成3D建模,所以每一個肌肉點的運動都會連帶著很多面部臉譜協(xié)同運動。
從面部表情到肢體動作的細節(jié)程度,達到了不亞于,甚至?xí)哂谝恍┯耙曌髌芳坝螒騈PC的寫實度。
在高清特寫鏡頭下,3D AI合成主播的皮膚材質(zhì)、毛孔、牙齒、嘴唇、眼睛、頭發(fā)達到高逼真程度。
并且在AI合成主播講話的過程中,語音和她的唇動細節(jié)之間的配合度,以及她的面部肌肉運動,整體看起來實現(xiàn)了很高的自然度。
同時,在講話過程中,3D AI合成主播的頭動、肩膀、眼神、眨眼等等都非常自然。
其次,是3D數(shù)字人驅(qū)動方式、成本、效率不同,這一點格外重要。
3D AI合成主播靠AI算法實時驅(qū)動,輸入一個文本就能輸出一個視頻或者視頻流。
并且其效率極高——若是要生成一個1分鐘的視頻,輸入文本后,生成只需要1分鐘,可以說,幾乎達到了實時生成的效果。
反觀游戲行業(yè)及電影行業(yè),大多是靠人工做驅(qū)動,才能實現(xiàn)一個高寫實的3D模型。這就導(dǎo)致需要投入大量的人力、財力成本。
例如,掃描一個人物,再投入大量的人工采集他講的每一個字、每一個發(fā)音、每一個動作。而后靠美術(shù)師自己勾畫出來,一點一點地提升寫實度。
以這種制作過程,來完成一個小時的3D寫實度視頻,大約需要花費幾千萬人民幣。
再者,如現(xiàn)在市面上一些比較火的卡通效果,如洛天依,大多都是通過真人采集,沒有做到真正意義上的AI驅(qū)動。
業(yè)內(nèi)類似的3D數(shù)字人,還有像今年CES中,三星的NEON.Life項目。
雖然三星的這項技術(shù)在面部細節(jié)還原方面達到了高逼真度,但是其在整體面部、肢體的協(xié)調(diào)性等方面還是具有一定的缺陷。
可以看到,三星NEON.Life項目中的數(shù)字人,在說話的過程中,只有面部肌肉在動,而身體是一直保持一個動作不變。
而在剛才的展示中,“新小微”從進場到站姿播報,表情、唇動、語言、肢體動作,都是一氣呵成、自然協(xié)調(diào)。
再來看一個細節(jié)。
這個3D人在完成扭頭動作時,由于脖子、肩膀不能完成“聯(lián)動”,所以效果上會比較“詭異”。
而在游戲、影視,甚至是同行3D數(shù)字人中存在的缺陷,搜狗通過開創(chuàng)性的AI技術(shù),將其逐一攻克。
不是迭代,而是兩條賽道并行走
說搜狗是AI合成主播的開創(chuàng)者,一點也不足為過。
其實,早在2018年開始,便采用搜狗分身技術(shù),聯(lián)合新華社發(fā)布全球首個AI合成主播。
真人?AI?傻傻分不清。
但需要強調(diào)的一點是,搜狗的3D AI合成主播,并不是基于此前2D合成主播的升級、迭代。
而是兩條賽道并行走。
2D的AI合成主播技術(shù)已經(jīng)在許多場景中落地,例如新聞主播“雅妮”、“AI虛擬法官”,以及虛擬審核客服等等。
而隨著數(shù)字人這一概念的興起,搜狗基于已有的AI技術(shù),與3D技術(shù)相結(jié)合,便推出了此次的3D AI合成主播。
二者是處于“搜狗分身”體系下的并行發(fā)展路線,正如在量子位采訪過程中,搜狗AI交互技術(shù)部總經(jīng)理陳偉表示:
2D的寫實度比3D略高一些,但是3D的靈活性更高一點。 基于路線探討,我們還是區(qū)分了2D和3D,同時在底層算法上也做了充分的打通。
搜狗分身的下一步
從2D的AI分身,到現(xiàn)在3D的進化,背后不僅是技術(shù)、產(chǎn)品在場景落地上的不斷探索和精益求精。
也是搜狗在其AI戰(zhàn)略執(zhí)行線上的不斷推進。
眾所周知,自2016年以來,搜狗就確定了以語言為核心的自然交互+知識計算路線,而AI分身類產(chǎn)品,核心發(fā)展目標(biāo)就是打造像人一樣的自然交互,并且擁有強大的知識計算能力。
2D和3D的AI合成主播,正在從“表達式”向“交互式”發(fā)展,這背后要基于強大的知識理解和計算能力。
這也是全球目前及下一階段最前沿的“數(shù)字人”的核心技術(shù)競爭力所在。
相比三星在CES上的Demo展出,搜狗已將AI合成主播實現(xiàn)了重要場合、重要崗位和重要任務(wù)場景上的商用。
這既是產(chǎn)品成熟度的自信,也是背后的技術(shù)自信。
或許要不了多久,真正的“數(shù)字人”,將不再局限于數(shù)字世界。
你期待嗎?
- 商湯林達華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計,讓70年經(jīng)驗“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機器人人人人人塞滿了!2025-08-08