鵝廠最新數(shù)字人,體溫36.5℃
AI無障愛,國際殘疾人日里有溫度的黑科技
魚羊 蕭簫 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
今天是國際殘疾人日,正巧,也是《國王排名》更新的日子。
這部42歲作者產(chǎn)出的作品,主角波吉正是一名聾啞人,畫風(fēng)不算成熟,卻在11月一躍成為現(xiàn)象級(jí)作品,熱度高到出圈:
故事中的波吉聽不見、說不出,但除了師長親人外,身邊愿意為他學(xué)習(xí)手語的人卻少之又少。
看過這部動(dòng)漫后,不少網(wǎng)友開始意識(shí)到,自己身邊同樣有不少無法通過言語交流的“波吉”們:
跟動(dòng)畫中的波吉一樣,現(xiàn)實(shí)中的聽障人群迫切地想要和這個(gè)世界建立聯(lián)系,讀懂他人傳遞的信息,但,并非每個(gè)人都能找到一個(gè)像卡克一樣愿意隨時(shí)充當(dāng)“翻譯”的小伙伴。
同樣,在現(xiàn)實(shí)生活中,中國的14億人口里有超過2700萬殘疾性聽力障礙人士,專業(yè)手語翻譯卻少之又少。
曾有統(tǒng)計(jì)數(shù)字顯示,在上海約有23萬聽障人士,能真正勝任工作的手語翻譯卻不足百人。
而看新聞、刷視頻這樣的平常小事,在他們的世界里,也充滿困難和障礙:
相比于自然語言,手語更像是一門與母語相差甚遠(yuǎn)的外語。
舉個(gè)例子,在語序上,兩者就存在較大差異。像“開車不喝酒”這句話,手語表達(dá)的順序其實(shí)是依次打出“開車”、“喝酒”、“不許”這三個(gè)手勢。
在這種情況下,世界更多地對(duì)他們呈現(xiàn)出一種冰冷的姿態(tài)。
所幸,科技的發(fā)展,如今正在真實(shí)地改變“波吉”們的生活。
例如,有這樣一類AI手語主播,Ta們7×24小時(shí)無休,讓人們感受到了人性的溫度。
Ta們不僅能夠隨時(shí)隨地提供實(shí)時(shí)手語翻譯,翻譯質(zhì)量也相當(dāng)可靠——
以上面這位來自騰訊的AI手語主播“小聰”為例,其手語翻譯的可懂度能達(dá)到80%+。
不過,要想達(dá)到這樣的水準(zhǔn),AI要做的事情絕非僅僅“翻譯”那么簡單。
AI手語主播背后的挑戰(zhàn)
相對(duì)社會(huì)大眾,聽障人群是一個(gè)少數(shù)群體,這就意味著,想要打造一個(gè)手語翻譯相關(guān)的AI,首先要面對(duì)的就是數(shù)據(jù)匱乏這一先天挑戰(zhàn)。
并且由于語言本身詞匯量很大,如果要通過把所有詞匯都用手語打一遍的方式來采集數(shù)據(jù),從技術(shù)的角度來看,時(shí)間和數(shù)據(jù)量的壓力都會(huì)非常大。
而這,還只是第一重挑戰(zhàn)。
更大的困難在于,語音轉(zhuǎn)手語,并不是簡單地構(gòu)建一個(gè)從語音到視覺的轉(zhuǎn)換模型就行。
正如前文所提到的,手語表達(dá)的順序與自然語言輸出的順序并不一致,在語句文字輸出量大、語音播報(bào)速度比手語播報(bào)快30%-50%的情況下,手語翻譯的速度很難跟上人的語速。
此外,表情神態(tài)也是手語表達(dá)中極為重要的一部分,并不能簡單忽略。
這也是為什么,早在2018年,新華社就曾與搜狗合作推出數(shù)字人主播,卻直到今年5月,全球首個(gè)手語數(shù)字人(同樣出自搜狗)才正式登臺(tái)亮相。
所以,程序員們具體是如何攻克難題的?
以前面提到的AI手語主播“小聰”為例,這一騰訊云小微的產(chǎn)品首先是利用數(shù)據(jù)標(biāo)注、數(shù)據(jù)增強(qiáng)技術(shù),在不需要采集所有手語動(dòng)作的前提下,擴(kuò)展詞匯量儲(chǔ)備。
其次,是在翻譯的過程中,先通過語義理解技術(shù)進(jìn)行文本摘要,再在保障事實(shí)正確率的前提下進(jìn)行手語翻譯及合成,在解決詞匯量問題的同時(shí),縮短表達(dá)時(shí)長。
而小聰誕生的過程中,騰訊云小微也邀請(qǐng)了手語專家、使用手語的聽障人士協(xié)助測評(píng),以最終讓小聰打出“聽障人士看得懂的手語”。
這里怎么理解呢,舉個(gè)例子,市面上的手語數(shù)字人打手語的速度往往符合健全人的視覺習(xí)慣,而在聽障人士看來,就太慢了。
在此之外,AI手語主播還需要更像“人”,比如表情神態(tài)、動(dòng)作的流暢度,以及理解輸出的“業(yè)務(wù)能力”等等方面。這一點(diǎn)不僅適用于AI手語主播,其他數(shù)字人產(chǎn)品也是如此。為了重新定義產(chǎn)品及背后的技術(shù)要求,騰訊的技術(shù)工作者們發(fā)布了全新的、智能化的數(shù)字人產(chǎn)品——
騰訊云小微數(shù)智人。
AI手語主播如何成為數(shù)“智”人?
事實(shí)上,任何虛擬的人物形象都可以被稱作數(shù)字人,但數(shù)智人產(chǎn)品的技術(shù)要求則要嚴(yán)格不少。
對(duì)于數(shù)智人產(chǎn)品,騰訊云小微給出了這樣的技術(shù)描述:
新一代多模態(tài)人機(jī)交互系統(tǒng)。
所謂多模態(tài)交互,簡單來說就是能聽、能看、能說、能思考。
這表明數(shù)智人的“智”,不僅僅指知識(shí)儲(chǔ)備量,更表示它們能真正像人一樣,結(jié)合視覺、聽覺等多種感官理解外界信息,并及時(shí)做出反饋。
從實(shí)現(xiàn)方式看,數(shù)字人要想成為一名數(shù)“智”人,至少要有5個(gè)方向上的技術(shù)儲(chǔ)備:
這意味著,如果一名虛擬數(shù)字人被稱作“數(shù)智人”,那它除了需要貼合應(yīng)用場景,還需要解決以下兩個(gè)問題。
其一,數(shù)字人在表達(dá)時(shí),往往會(huì)出現(xiàn)肢體動(dòng)作僵硬不自然的問題。
現(xiàn)在,形象和外觀早已不是數(shù)字人最大的難點(diǎn),通過動(dòng)捕、渲染等技術(shù),可以輕易將數(shù)字人的形象做得非常逼真。
但在進(jìn)行語音交流的時(shí)候,數(shù)字人卻極容易出現(xiàn)肢體僵硬不自然的問題。
人類在說話的時(shí)候,手部和身體會(huì)有輕微的隨機(jī)動(dòng)作,伴隨情緒語氣和用詞發(fā)生變化。
為了模擬這些動(dòng)作,不少數(shù)字人選擇設(shè)置一套隨機(jī)肢體動(dòng)作的程序,讓數(shù)字人在說話的時(shí)候,按程序固定做出一些動(dòng)作。
然而,由于這套程序與用詞、語氣和情緒并不掛鉤,往往會(huì)顯得肢體非常僵硬,甚至出現(xiàn)“講述傷感故事時(shí)開懷大笑”的場景。
此前,國外某公司曾推出過一款數(shù)字人,雖然臉部已經(jīng)非常逼真,但肢體動(dòng)作卻非常僵直,交流時(shí)不免溢出一絲詭異感:
針對(duì)這個(gè)問題,騰訊云小微的解決方案是引入語義驅(qū)動(dòng)技術(shù),即根據(jù)數(shù)智人說話的語義,去匹配對(duì)應(yīng)的動(dòng)作和字詞。
需要說明的是,這樣的語義驅(qū)動(dòng)并非是靠1對(duì)1的動(dòng)作-文字匹配實(shí)現(xiàn)——這種方案會(huì)使得數(shù)字人的運(yùn)營配置成本過高,而是利用NLP技術(shù)對(duì)語句進(jìn)行語義理解,確保數(shù)智人所有的肢體動(dòng)作都是在理解對(duì)話的基礎(chǔ)上進(jìn)行的。
例如,云小微數(shù)智人不止會(huì)根據(jù)文字的語氣做出沮喪、高興或生氣等8種細(xì)節(jié)表情(精細(xì)到眉毛那種),還能自行歸類各種近義詞句,做到說話時(shí)從表情到肢體動(dòng)作都接近真人。
其二,是語音交互溝通中語句理解的問題。
盡管除了語音外,數(shù)智人的交互也包括觸摸、圖形、文字等交互方式,但在人類日常溝通中,語音仍然是最自然的方式,在人機(jī)溝通中更是如此。
同時(shí),語音交互又是人機(jī)交互中最復(fù)雜的技術(shù)之一,目前人類和AI在日常溝通上仍然存在不少障礙。
其中一個(gè)非常大的問題,就是AI無法理解我們說的是什么,包括口語化表達(dá)、口音、說話習(xí)慣等等因素都會(huì)對(duì)AI理解語句帶來很大挑戰(zhàn)。
面對(duì)這種問題,騰訊實(shí)現(xiàn)了非常全面的AI技術(shù)儲(chǔ)備。
在NLP技術(shù)上,騰訊云小微在國際對(duì)話系統(tǒng)技術(shù)挑戰(zhàn)賽(DSTC8)中,一連斬獲4項(xiàng)世界第一,無論是數(shù)據(jù)、模型還是場景,都處于行業(yè)領(lǐng)先的地位。
其中,在數(shù)據(jù)上,云小微支持自動(dòng)學(xué)習(xí)、自動(dòng)化擴(kuò)展百萬級(jí)語料;模型也非常全面,從任務(wù)、閑聊到問答型都有,也支持在線&離線融合語義理解;最重要的是,云小微由于有全雙工、多輪對(duì)話能力相關(guān)的技術(shù)加成,能夠很好地完成復(fù)雜場景的對(duì)話任務(wù)。
而在NLP以外,騰訊在語音合成上也有AI LAB自研的DurIAN等語音合成框架。
據(jù)負(fù)責(zé)人介紹,在語音合成方面,騰訊云小微不僅支持少樣本聲音復(fù)刻、達(dá)到“20句就能生成極具個(gè)性化的語音聲線”的效果,而且合成效果擬聲度高、同時(shí)支持11種語言和方言。
這樣一來,數(shù)智人不僅解決了語音上“理解”的問題,也解決了個(gè)性化“表達(dá)”的問題,應(yīng)用在手語主播這樣的場景中,才能更好地向聽障群體放出善意與溫暖。
科技的增量價(jià)值
當(dāng)數(shù)智人們變得越來越智能,不止是當(dāng)主持人、當(dāng)手語AI主播,「向善」的科技同樣也能應(yīng)用在更廣更多的領(lǐng)域中,越來越多的職業(yè)崗位上都開始出現(xiàn)Ta們的身影,比如導(dǎo)游、客服、虛擬偶像等等。
例如,在傳媒領(lǐng)域,數(shù)智人就能在新聞主播忙不過來的時(shí)候,成為一個(gè)“虛擬分身”,為他們進(jìn)行一個(gè)高并發(fā)的信息輸出。
這樣一來,不僅能解決新聞量高并發(fā)的問題,還能解決新聞主播受到時(shí)差、語言等方面限制的問題,實(shí)現(xiàn)7×24小時(shí)在線。
又例如,今年由于疫情原因,不少銀行等金融機(jī)構(gòu)開始開啟線上業(yè)務(wù)辦理,然而員工們卻無法到線下的網(wǎng)點(diǎn)上班,導(dǎo)致客戶同樣也無法辦理業(yè)務(wù)。
在這種情況下,數(shù)智人就能幫助金融機(jī)構(gòu),通過語音交互完成一個(gè)無接觸面對(duì)面的業(yè)務(wù)辦理,同時(shí)結(jié)合視覺、大數(shù)據(jù)等技術(shù),實(shí)現(xiàn)金融風(fēng)險(xiǎn)評(píng)估等更加復(fù)雜的操作。
但值得一提的是,正如同手語數(shù)智人的出現(xiàn),讓所有電視節(jié)目都配上手語老師成為可能,在這些場景中,數(shù)智人也并非在“替代”人類工作,而更多地是填補(bǔ)空白,起到“增量”的效果。
在那些人力短缺,或僅憑人力難以兼顧的場景中,數(shù)智人作為一種提升服務(wù)效率的方式,不僅能夠避免重復(fù)性勞作帶來的效率降低,也能保持長期工作中的服務(wù)體驗(yàn)感。
這也是科技背后真正的價(jià)值——并非取而代之,而是協(xié)助人、去做人所不能之事。
從這個(gè)角度來看,數(shù)智人仿佛也擁有了人類一般36.5℃的體溫,不再只是一個(gè)冰冷的數(shù)字形象。
事實(shí)上,也只有真正有溫度的科技、無障礙的科技,才能夠在時(shí)間的檢驗(yàn)下保持長久的生命力。
近年來,像騰訊這樣的科技公司其實(shí)一直在進(jìn)行無障礙設(shè)施的落地,踐行上述理念。
而現(xiàn)在,歷經(jīng)數(shù)年技術(shù)積累,從實(shí)驗(yàn)室走向臺(tái)前的AI手語數(shù)智人們,也正是“科技有溫度”的最新體現(xiàn)。
并且,科技越發(fā)展,形態(tài)越進(jìn)化,弱勢群體和世界之間的裂隙,也越來越能夠?yàn)榧夹g(shù)所撫平——
相比翻譯機(jī),AI手語數(shù)智人更進(jìn)一步地解決了雙向溝通的問題,不僅讓聽障人士理解想要表達(dá)的信息,也讓更多人走進(jìn)聽障人士們的內(nèi)心世界。
愿科技的發(fā)展,能讓每一個(gè)人都感受到被重視的“溫度”。