騰訊李學(xué)朝:從數(shù)字人到數(shù)智人,塑造全新生產(chǎn)力
數(shù)字人發(fā)展十大趨勢(shì)
7月29日,2022全球數(shù)字經(jīng)濟(jì)大會(huì)暨互聯(lián)網(wǎng)3.0峰會(huì)數(shù)字人生態(tài)發(fā)展論壇在北京召開(kāi),本次論壇匯聚數(shù)字人產(chǎn)業(yè)政、產(chǎn)、學(xué)、研、企重量級(jí)嘉賓,共同探討數(shù)字人產(chǎn)業(yè)發(fā)展。
會(huì)上,由中國(guó)信息通信研究院云計(jì)算與大數(shù)據(jù)研究所牽頭,聯(lián)合騰訊等機(jī)構(gòu)共同制定的全球首個(gè)數(shù)字人國(guó)際標(biāo)準(zhǔn)ITU-T F.748.15 “Framework and metrics for digital human application system”(數(shù)字人應(yīng)用系統(tǒng)基礎(chǔ)框架和評(píng)測(cè)指標(biāo))正式發(fā)布。
在“深度洞察”環(huán)節(jié),騰訊智能產(chǎn)品副總裁李學(xué)朝通過(guò)題為《從數(shù)字人到數(shù)智人,塑造全新生產(chǎn)力》的主題演講,分享了騰訊云小微、騰訊研究院和創(chuàng)業(yè)黑馬經(jīng)過(guò)產(chǎn)業(yè)研究、實(shí)地調(diào)研,共同提煉總結(jié)的“數(shù)字人發(fā)展十大趨勢(shì)”。
(騰訊智能產(chǎn)品副總裁 李學(xué)朝)
李學(xué)朝表示,數(shù)字人是互聯(lián)網(wǎng)3.0的重要入口,正在發(fā)生一系列深刻的技術(shù)、應(yīng)用演進(jìn)。其演進(jìn)可分為離線-在線-在場(chǎng)三個(gè)階段,從“離線”到“在線”,是技術(shù)對(duì)效率的解放。而未來(lái),從“在線”走向“在場(chǎng)”,技術(shù)演進(jìn)將推動(dòng)線上和線下更全面地一體化,進(jìn)入全真互聯(lián)?!耙劳杏贏I技術(shù)從感知到?jīng)Q策到表達(dá)的一系列突破,數(shù)智人可以與數(shù)字場(chǎng)景、行業(yè)理解更深度耦合,加速轉(zhuǎn)化為現(xiàn)實(shí)生產(chǎn)力,實(shí)現(xiàn)全面‘在場(chǎng)’服務(wù)?!崩顚W(xué)朝表示。
“技術(shù)應(yīng)用的終極價(jià)值是服務(wù)于人?!痹谘葜v中,李學(xué)朝分享了騰訊在數(shù)字人領(lǐng)域的探索。通過(guò)整合ASR、NLP、語(yǔ)音交互、自然語(yǔ)言理解、圖像識(shí)別、TTS、知識(shí)圖譜等全棧AI能力,連接騰訊豐富的內(nèi)容和服務(wù)生態(tài),以及面向使用場(chǎng)景打磨平臺(tái)能力,騰訊云小微助力行業(yè)客戶打造出有智能、有形象、可交互的數(shù)字分身,實(shí)現(xiàn)了從“數(shù)字人”到“數(shù)智人”的智能化升級(jí)。目前,騰訊云小微數(shù)智人已經(jīng)在銀行、證券、傳媒、文旅、出行等多個(gè)行業(yè)場(chǎng)景中落地。
李學(xué)朝表示,未來(lái)騰訊云小微希望與更多合作伙伴共同推動(dòng)技術(shù)進(jìn)步,探索數(shù)字人應(yīng)用落地產(chǎn)業(yè),面向行業(yè)提供有溫度的交互智能服務(wù),共同助力中國(guó)數(shù)字化建設(shè)。
以下為演講實(shí)錄:
尊敬的各位嘉賓、媒體朋友們:
大家好,我是騰訊李學(xué)朝,很高興能在數(shù)字人生態(tài)發(fā)展論壇與大家進(jìn)行交流。
今年以來(lái),互聯(lián)網(wǎng)3.0成為了行業(yè)關(guān)注焦點(diǎn)。隨著數(shù)字世界和物理世界加速無(wú)縫銜接,以人工智能、大數(shù)據(jù)、云計(jì)算為代表的數(shù)字技術(shù)深入生產(chǎn)生活,為各行各業(yè)升級(jí)轉(zhuǎn)型打開(kāi)新的想象空間。
其中,數(shù)字人作為AI技術(shù)具像化的一種展現(xiàn)形式,是互聯(lián)網(wǎng)3.0的重要入口,也在發(fā)生一系列深刻的技術(shù)、應(yīng)用演進(jìn)。
我們把這種變化拆解為離線-在線-在場(chǎng)三個(gè)階段。在“離線”初始階段,依托動(dòng)畫與渲染技術(shù),身份型的虛擬數(shù)字人,以真人偶像的數(shù)字分身,虛擬代言人等身份,在數(shù)字營(yíng)銷、文娛等領(lǐng)域得到廣泛的落地展示。近幾年,數(shù)字人開(kāi)始進(jìn)入“在線”服務(wù)。通過(guò)掌握語(yǔ)義智能解析、語(yǔ)音在線合成等AI技術(shù),數(shù)字人升級(jí)為“數(shù)智人”,進(jìn)入金融、傳媒、出行、文旅等領(lǐng)域,為終端用戶提供數(shù)字客服、數(shù)字導(dǎo)覽、數(shù)字主播等服務(wù),助力企業(yè)和組織落地?cái)?shù)字化轉(zhuǎn)型,實(shí)現(xiàn)降本增效。
從“離線”到“在線”,是技術(shù)對(duì)效率的解放。而未來(lái),從“在線”走向“在場(chǎng)”,技術(shù)演進(jìn)將推動(dòng)線上和線下更全面地一體化,進(jìn)入全真互聯(lián),也是Web 3.0的真正落地。依托于AI技術(shù)從感知到?jīng)Q策到表達(dá)的一系列突破,數(shù)智人將與數(shù)字場(chǎng)景、行業(yè)理解深度耦合,加速轉(zhuǎn)化為現(xiàn)實(shí)生產(chǎn)力,實(shí)現(xiàn)全面“在場(chǎng)”服務(wù)。
從離線到在線到在場(chǎng),技術(shù)應(yīng)用的終極價(jià)值是“服務(wù)于人”。在這個(gè)過(guò)程中,數(shù)字人行業(yè)會(huì)用到哪些新技術(shù),采用哪些新模式,出現(xiàn)哪些新增長(zhǎng)點(diǎn)?帶著這些疑問(wèn),我們和騰訊研究院、創(chuàng)業(yè)黑馬在過(guò)去一段時(shí)間,進(jìn)行了一系列的行業(yè)調(diào)研,借著今天這個(gè)場(chǎng)合,也和大家分享一下我們的觀察與思考。
第一,從產(chǎn)品形態(tài)上看,短期內(nèi)多種類型數(shù)字虛擬人共存,建模、渲染、驅(qū)動(dòng)等技術(shù)環(huán)節(jié)相對(duì)同質(zhì)化。
我們可以看到,目前數(shù)字虛擬人主要分為功能服務(wù)型數(shù)字人,即數(shù)字員工,以及身份型數(shù)字人兩種。在每種類型中,建模、動(dòng)捕、驅(qū)動(dòng)和渲染這些技術(shù)已經(jīng)相對(duì)同質(zhì)化和流水線化,產(chǎn)業(yè)鏈分工愈趨明確,說(shuō)明產(chǎn)業(yè)和技術(shù)已經(jīng)到達(dá)第一個(gè)成熟期。
第二,從核心價(jià)值上看,藝術(shù)性、IP和運(yùn)營(yíng)能力是身份型數(shù)字人核心,功能服務(wù)型數(shù)字人本質(zhì)是借助AI實(shí)現(xiàn)人的增強(qiáng)和輔助。
功能服務(wù)型數(shù)字人的重點(diǎn)在于AI技術(shù)突破,AI技術(shù)驅(qū)動(dòng)多模態(tài)輸入感知、多模態(tài)交互能力不斷完善,ASR、NLP、TTS、STA、情感計(jì)算也是技術(shù)突破的重點(diǎn)方向。
第三,從技術(shù)融合維度看,數(shù)字人技術(shù)與SLAM、體積視頻等技術(shù)將實(shí)現(xiàn)深度融合,云端渲染是重要關(guān)注點(diǎn)。
數(shù)字人作為3D呈現(xiàn)的一種方式,與其他3D技術(shù)如SLAM、體積視頻融合,會(huì)對(duì)渲染能力提出較高需求。因此,我們判斷未來(lái)的技術(shù)方向是云端渲染推流到終端,或者是通過(guò)端云協(xié)同,云端和終端分別渲染場(chǎng)景和數(shù)字人。
第四,目前數(shù)字人展示平臺(tái),主要以傳統(tǒng)顯示設(shè)備為主,PC、手機(jī)、大屏是主流顯示硬件。但我們看到,數(shù)字人和3D數(shù)字內(nèi)容的結(jié)合,對(duì)于裸眼3D、VR、AR等硬件的普及具有推動(dòng)作用,沉浸式設(shè)備在特定領(lǐng)域?qū)⒊蔀樽顑?yōu)解。
第五,從行業(yè)應(yīng)用上看,數(shù)字人建立了AI與人的連接,成為一個(gè)新型交互入口。
當(dāng)數(shù)字人向數(shù)智人發(fā)展,在不改變業(yè)務(wù)邏輯的情況下,目前使用文字、語(yǔ)音交互的場(chǎng)景都可以用AI數(shù)智人進(jìn)行協(xié)同和輔助,從而向用戶提供更好的陪伴。未來(lái)數(shù)智人可以與更多的行業(yè)場(chǎng)景進(jìn)行深度結(jié)合,產(chǎn)生千行千面的數(shù)字員工,成為提供行業(yè)服務(wù)的必選項(xiàng)。
第六,從C端應(yīng)用上看,平臺(tái)工具會(huì)推動(dòng)應(yīng)用門檻和制作成本下降,這時(shí)候UGC數(shù)字人和新商業(yè)模式將加速出現(xiàn)。
我們也看到,伴隨AI視頻驅(qū)動(dòng)技術(shù)的發(fā)展,易操作的數(shù)字人生產(chǎn)、服務(wù)平臺(tái)陸續(xù)出現(xiàn),未來(lái)普通用戶也可以用低成本制作數(shù)字人,UGC模式將會(huì)普及。
第七,數(shù)字人推動(dòng)AI技術(shù)從后臺(tái)走向前端,打通感知-決策-表達(dá)閉環(huán)。
過(guò)去,AI技術(shù)更多是底層技術(shù)引用,在后臺(tái)的數(shù)據(jù)處理領(lǐng)域,比如算法推薦、圖像處理發(fā)揮效用?,F(xiàn)在,數(shù)字人集合了多種AI技術(shù),通過(guò)ASR-NLP-TTS等AI技術(shù)建立感知-決策-表達(dá)閉環(huán),使得AI技術(shù)從單純的數(shù)據(jù)處理,走向前端,被用戶深刻感知。
第八,在產(chǎn)業(yè)聚集上,數(shù)字人發(fā)展依托藝術(shù)和技術(shù)的雙輪驅(qū)動(dòng),北京有望成為產(chǎn)業(yè)新高地。
數(shù)字人研發(fā)需要藝術(shù)和技術(shù)雙重人才,北京、深圳、杭州、成都將成為數(shù)字人產(chǎn)業(yè)的重要聚居地。其中,北京文化產(chǎn)業(yè)和科技產(chǎn)業(yè)優(yōu)勢(shì)突出,政府高度重視數(shù)字人產(chǎn)業(yè)發(fā)展,也是全國(guó)首個(gè)發(fā)布數(shù)字人發(fā)展支持政策的城市,有望成為產(chǎn)業(yè)發(fā)展新高地。
第九,我們從挑戰(zhàn)上看,目前數(shù)字人權(quán)益保護(hù)仍處在探索期,數(shù)字人著作權(quán)、商標(biāo)權(quán)、真人形象授權(quán)、 真人聲音授權(quán)等知識(shí)產(chǎn)權(quán)管理等問(wèn)題較為突出。只有依靠產(chǎn)業(yè)共同努力,才能推動(dòng)數(shù)字人產(chǎn)業(yè)實(shí)現(xiàn)可用、可靠、可知、可控。
最后,我們也再講講對(duì)行業(yè)趨勢(shì)的判斷。正如開(kāi)頭所提及的,離線-在線-在場(chǎng)是數(shù)字人發(fā)展的必然路徑。
從關(guān)注動(dòng)畫、渲染的身份型數(shù)字人,到融合語(yǔ)言理解能力、表達(dá)能力、學(xué)習(xí)能力、交互能力的服務(wù)型數(shù)智人,從在線服務(wù)到在場(chǎng)體驗(yàn),數(shù)字人將進(jìn)入大規(guī)模應(yīng)用期,加速轉(zhuǎn)化為現(xiàn)實(shí)生產(chǎn)力,為消費(fèi)市場(chǎng)和企業(yè)服務(wù)創(chuàng)造更大價(jià)值。
從離線到在線到在場(chǎng),騰訊在數(shù)字人產(chǎn)業(yè)一直不斷深耕和探索。當(dāng)交互模式從文本升級(jí)為語(yǔ)音,再到多模態(tài)人機(jī)交互系統(tǒng),溝通效率和服務(wù)溫度都得到了大幅提升。
騰訊云小微通過(guò)整合ASR、NLP、語(yǔ)音交互、自然語(yǔ)言理解、圖像識(shí)別、TTS、知識(shí)圖譜等AI能力,連接騰訊豐富的內(nèi)容和服務(wù)生態(tài),面向使用場(chǎng)景打磨平臺(tái)能力,助力行業(yè)客戶打造出有智能、有形象、可交互的數(shù)字分身,實(shí)現(xiàn)從“數(shù)字人”到“數(shù)智人”的智能化升級(jí)。
就在最近,騰訊云小微剛剛和中國(guó)國(guó)家博物館合作,推出了國(guó)博首個(gè)虛擬形象代言人“艾雯雯”。通過(guò)文博語(yǔ)料的訓(xùn)練,“艾雯雯”可以實(shí)現(xiàn)對(duì)140余萬(wàn)藏品講解知識(shí)倒背入流,并能通過(guò)自學(xué)習(xí)、自適應(yīng)不斷提升對(duì)行業(yè)、場(chǎng)景和用戶的理解能力、應(yīng)變能力和表達(dá)能力,更好地為全球游客講解中華文明,讓中國(guó)文化走向世界。
截至目前,由騰訊云小微技術(shù)驅(qū)動(dòng)的數(shù)智人已經(jīng)在銀行、證券、教育、政務(wù)、傳媒、文旅、出行等多個(gè)行業(yè)場(chǎng)景中落地。
例如,在傳媒領(lǐng)域,年初的冰雪賽事上,騰訊3D手語(yǔ)數(shù)智人“聆語(yǔ)”出任央視頻AI手語(yǔ)翻譯官,用近2000個(gè)手語(yǔ)動(dòng)作為聽(tīng)障觀眾解讀賽事直播,是行業(yè)首次嘗試。在金融領(lǐng)域,我們與中信建投證券共同打造虛擬坐席,通過(guò)數(shù)智人實(shí)現(xiàn)視頻見(jiàn)證開(kāi)戶,在證券行業(yè)落地首個(gè)可交互的數(shù)字員工。出行領(lǐng)域,在一汽-大眾云展廳,數(shù)智人Ida經(jīng)過(guò)汽車行業(yè)專用語(yǔ)料訓(xùn)練,變身為汽車導(dǎo)購(gòu)“數(shù)智分身”,可以像真人專業(yè)汽車導(dǎo)購(gòu)一樣,為顧客帶來(lái)沉浸式的購(gòu)車體驗(yàn)。
從數(shù)字人到數(shù)智人,最大的變化是實(shí)現(xiàn)“聽(tīng)得清、聽(tīng)得懂、會(huì)表達(dá)”。我們相信,伴隨交互智能技術(shù)的加速發(fā)展,數(shù)智人將會(huì)成為各行業(yè)塑造競(jìng)爭(zhēng)優(yōu)勢(shì)的新生產(chǎn)力,促進(jìn)更高效的產(chǎn)業(yè)協(xié)作,達(dá)到更優(yōu)質(zhì)的用戶體驗(yàn)。
今天的論壇,匯集了數(shù)字人行業(yè)產(chǎn)、學(xué)、研領(lǐng)域的重量級(jí)嘉賓。未來(lái),我們希望和大家共同推動(dòng)技術(shù)進(jìn)步,與合作伙伴共同探索數(shù)字人應(yīng)用落地產(chǎn)業(yè),提供有溫度的交互智能服務(wù),一起助力中國(guó)數(shù)字化建設(shè)。