Siri算數(shù)字人嗎?清華人大教授、初創(chuàng)公司CTO、 產(chǎn)業(yè)專家與快手工程師一起說(shuō)|CCF C3
衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
Hey Siri,請(qǐng)你告訴我,Siri算虛擬數(shù)字人嗎?
Siri如何回答,取決于它對(duì)“虛擬數(shù)字人”如何定義。
虛擬數(shù)字人并非新鮮事物,虛擬偶像如洛天依等,在亞文化圈風(fēng)靡已久。
近一兩年間,伴隨元宇宙概念興起,虛擬數(shù)字人,這批元宇宙的原住民,愈發(fā)朝著智能化、精細(xì)化、多樣化發(fā)展。
向前推進(jìn)發(fā)展,虛擬數(shù)字人技術(shù)有哪些新趨勢(shì)?這一元宇宙熱度加持下的商業(yè)化應(yīng)用,又有哪些落地挑戰(zhàn)?
在CCF C3第十五次活動(dòng)中,專家學(xué)者和行業(yè)大咖來(lái)到快手總部,就這些問(wèn)題展開(kāi)了深入討論。
虛擬數(shù)字人走向“尋常百姓家”
細(xì)數(shù)普通人接觸虛擬數(shù)字人的途徑們,繞不開(kāi)的就有快手。
上個(gè)月,快手面向全網(wǎng)推出“V-Star虛擬人計(jì)劃”,引得狐璃璃、機(jī)靈小熊貓、萬(wàn)一、圖南翼、M潯少鹿等虛擬主播入駐。
而快手自身,早于App內(nèi)推出了快手虛擬演播助手,它是一款面向“中之人驅(qū)動(dòng)”的虛擬數(shù)字人一站式工具。
“中之人驅(qū)動(dòng)”意味著這個(gè)演播助手,背后依靠光學(xué)、慣性、攝像頭等多種動(dòng)作捕捉方式,驅(qū)動(dòng)數(shù)字人進(jìn)行直播,并配備了豐富的3D場(chǎng)景和特效。
快手Y-tech AI技術(shù)中心負(fù)責(zé)人萬(wàn)鵬飛介紹道,快手虛擬演播助手包含的虛擬世界互動(dòng)玩法,可以讓觀眾通過(guò)虛擬化身,“親自”參與直播。
相對(duì)應(yīng)的,不需中之人驅(qū)動(dòng)的“老鐵智播間”,就是一款自動(dòng)化數(shù)字人直播互動(dòng)和視頻制作產(chǎn)品。
因?yàn)橛袛?shù)字員工、直播、天氣播報(bào)等豐富的應(yīng)用場(chǎng)景,又因虛擬數(shù)字人能7×24飽含激情地工作,增加了直播效率,也降低了運(yùn)營(yíng)成本。
△萬(wàn)鵬飛
Streamlake(快手技術(shù)to B品牌)的數(shù)字人及XR解決方案在應(yīng)用層的第三個(gè)模塊,是移動(dòng)端混合現(xiàn)實(shí)引擎。
它讓AR/MR效果在“尋常百姓家”成為可能,用戶在普通手機(jī)上就能體驗(yàn),且機(jī)型覆蓋率遠(yuǎn)超蘋(píng)果ARKit和谷歌ARCore,對(duì)用戶終端很友好。
在三里屯、故宮、岳陽(yáng)樓等街區(qū)和名勝古跡的各種空間尺寸下,用戶都能體驗(yàn)AR/MR效果。
提升虛擬數(shù)字人的表現(xiàn)力
現(xiàn)如今,利用AR/MR效果,普通人能通過(guò)手機(jī)屏幕,看見(jiàn)攀爬、躲藏于三里屯標(biāo)志性網(wǎng)紅大樓的三只熊貓。
倒推20年——2000年前后,學(xué)術(shù)界已經(jīng)有科研者們?cè)谔骄刻摂M數(shù)字人的奧秘。
據(jù)清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系長(zhǎng)聘教授賈珈介紹,她所在實(shí)驗(yàn)室在虛擬數(shù)字人的細(xì)分粒度上,有四個(gè)不同角度和層面的研究。
△賈珈
- 虛擬臉像合成:已從早期規(guī)則驅(qū)動(dòng)加參數(shù)合成,過(guò)渡到如今高精度數(shù)據(jù)驅(qū)動(dòng)模式,提升了真實(shí)性和易用性。
- 肢體手勢(shì)的合成和算法:基于深度自注意網(wǎng)絡(luò)的說(shuō)話人肢體手勢(shì)生成算法,并從多模態(tài)上下文生成更加自然、更具有表現(xiàn)力、和語(yǔ)義相關(guān)性更強(qiáng)的手勢(shì)動(dòng)作。
- 基于人類編舞單元的自動(dòng)舞蹈合成:數(shù)據(jù)驅(qū)動(dòng)(3D舞蹈動(dòng)作數(shù)據(jù)集)和知識(shí)(編舞知識(shí)數(shù)據(jù)集)相融合,可拓展研發(fā)面向不同對(duì)象的交互應(yīng)用。
- 基于情感類別的可控情感語(yǔ)音合成:多維說(shuō)話人屬性驅(qū)動(dòng)的語(yǔ)音生成,讓虛擬數(shù)字人的聲線更加貼近形象和人設(shè),從而提升表現(xiàn)力。
虛擬數(shù)字人,到底什么樣?
回到最初的問(wèn)題,Siri到底算不算一個(gè)虛擬數(shù)字人?
圓桌討論上,中國(guó)信通院云計(jì)算與大數(shù)據(jù)研究所內(nèi)容科技部副主任石霖和快手研究員施侃樂(lè)都給出了否定的答案。
△石霖(左),施侃樂(lè)(右)
石霖認(rèn)為,虛擬數(shù)字人最終要落點(diǎn)在“人”之一字上,也就是應(yīng)具備人形。在他眼中,數(shù)字人應(yīng)具備科幻色彩,以區(qū)別傳統(tǒng)意義上的“人”,同時(shí)要具備智能化的交互功能和個(gè)性化色彩。
施侃樂(lè)自稱虛擬數(shù)字人的原教旨主義者。他將虛擬數(shù)字人定義為“我自己”在虛擬數(shù)字空間中的殘余,故而虛擬動(dòng)物只能稱為虛擬形象,而非所謂的虛擬人。
雖然人人都已經(jīng)在生活中或深或淺地接觸,但在這背后,發(fā)展虛擬數(shù)字人技術(shù),并非沒(méi)有待突破的技術(shù)難點(diǎn)。
無(wú)論是交互能力、對(duì)端側(cè)的渲染支撐、內(nèi)容安全、表情精細(xì)化,還是虛擬數(shù)字人的應(yīng)用場(chǎng)景和業(yè)務(wù)能力,都還有很長(zhǎng)的路要走。
中國(guó)人民大學(xué)高瓴人工智能學(xué)院長(zhǎng)聘副教授宋睿華發(fā)表了自己的看法。
△宋睿華
她覺(jué)得,在離開(kāi)“中之人驅(qū)動(dòng)”之后,目前的虛擬數(shù)字人缺少人類的“魂”,在人機(jī)交互方面不能像真人一樣,給予對(duì)方實(shí)時(shí)的反應(yīng)。
北京中科深智科技有限公司聯(lián)合創(chuàng)始人、CTO宋健從產(chǎn)業(yè)發(fā)展的角度表示,目前虛擬數(shù)字人面臨的阻礙或挑戰(zhàn),不僅存在于軟件等工具層面。
伴隨虛擬數(shù)字人產(chǎn)業(yè)的擴(kuò)大,標(biāo)準(zhǔn)化、安全問(wèn)題、規(guī)?;葐?wèn)題都會(huì)逐漸顯現(xiàn),并亟待解決。
△宋健
那么,現(xiàn)在的虛擬數(shù)字人發(fā)展處于什么水平?
有意思的是參與圓桌討論的產(chǎn)業(yè)界人士一致認(rèn)為,目前處于虛擬數(shù)字人發(fā)展早期,技術(shù)度較低,市場(chǎng)滲透率和知名度也不高,總體在探索嘗試階段;
學(xué)界兩位嘉賓則有同樣的看法,即虛擬數(shù)字人已經(jīng)路過(guò)了過(guò)高期望的峰值,正走向泡沫化的低谷期。
嘉賓們還對(duì)虛擬數(shù)字人的最終形態(tài)各抒己見(jiàn)。
有人認(rèn)為,未來(lái)的虛擬數(shù)字人應(yīng)與機(jī)器人合二為一;也有人發(fā)表看法稱,它應(yīng)當(dāng)是數(shù)實(shí)相生的人類未來(lái)伙伴。
而要走到這一步,道阻且長(zhǎng)。
CCF C3
以上精彩內(nèi)容,全部出自CCF C3的第15期活動(dòng),主題為“虛擬數(shù)字人”,由快手承辦。
CCF已在橫店落地一座計(jì)算機(jī)博物館,能夠?qū)嵉伢w驗(yàn)虛擬數(shù)字人技術(shù)。
C3活動(dòng)是由中國(guó)計(jì)算機(jī)學(xué)會(huì)CCF CTO Club發(fā)起的,旨在聯(lián)結(jié)企業(yè)CTO及高級(jí)技術(shù)人才和資深學(xué)者,每次以一個(gè)技術(shù)話題為核心,走進(jìn)一家技術(shù)領(lǐng)先企業(yè)。
目前為止,CCF C3已先后走進(jìn)京東、小米、搜狗、百度、亞馬遜、阿里巴巴、聯(lián)想、OPPO等企業(yè)。