搜狗發(fā)布全球首個手語AI合成主播,用技術造福聽障人群
新華社都在用的AI合成主播,現(xiàn)在學會了打手語
曉查 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
看央視新聞,你一定對“段子手”朱廣權逼瘋手語老師的畫面印象深刻吧。
手語新聞幫助聽障人群更好地了解這個世界。
可是你有沒有想過,自動生成字幕技術已經(jīng)非常成熟的今天,AI能夠迅速將語音轉成文字,為什么電視新聞還需要手語播報?
一群程序員為聾啞人打造手語主持人
在中國14億人中,有2700萬聽障人士。
這些人的年齡、受教育狀況參差不齊。很多聽障人士文化水平不高,他們當中很多人對手語比對文字更加熟悉。
而且手語的思維方式、順序和語音的方式并不相同。
比如我們一般說“開車不喝酒”,但是在手語中,卻是按順序打出“開車”、“喝酒”、“不許”這三個手勢。
一般的電視節(jié)目多是按照正常語序編排,很少照顧到手語的特殊表達結構,導致絕大部分聽障人士只能理解不足60%的內容。
尤其是播報突發(fā)疫情等新聞消息,往往沒有實時字幕,這些人就更難獲得信息了。
當我們在用手機刷短視頻、看新聞的時候,由于缺乏手語播報,那些聽障人群卻無法和我們一樣接受這些資訊,他們當中很多人難以融入社會,處在被遺忘的邊緣。
所以,有一群的搜狗程序員們,想到為聽障人群做點事。
在今年的搜狐5G&AI峰會上,搜狗發(fā)布了最新一代AI合成主播——全球首個手語AI合成主播“小聰”。
AI打手語,沒那么簡單
2018年,搜狗與新華社新媒體合作,以新華社邱浩和屈萌為原型,制作出全球首款AI合成主播“新小浩”和“新小萌”。
現(xiàn)在,搜狗的分身技術升級,這讓“段子手”朱廣權遇到了一個真正的AI“對手”——手語AI合成主播“小聰”,能夠把各種復雜的語言轉化成聽障人士更容易理解的手語。
“小聰”使用了行業(yè)最領先的3D重光照掃描還原、面部肌肉驅動、表情肢體手勢捕捉技術,生產(chǎn)出了高度還原真人發(fā)膚、形象逼真、動作自然生動的數(shù)字人模型,數(shù)字人寫實度的大幅突破則能夠顯著提升手語播報的真實感與親切感,從而提高播報用戶體驗。
搜狗說,在測評中“小聰”的可懂度達到了85%以上,相比純文字傳達信息的效率有明顯提高,能有效幫助聽障人士克服理解障礙。
01:21
從AI新聞主播到AI手語主播,這看似一個常規(guī)的迭代升級后,背后卻有著諸多不易。
首先,開發(fā)手語AI合成主播的程序員們,他們都是普通人,對手語不夠了解。
最開始他們以為只需做一個從語音到視覺的轉換模型即可,然而實際上手后,問題并不像想象的那么簡單。
一位參加開發(fā)的搜狗員工說,他們主要面臨著三大難點:一個是前面提到的手語與口語語序不一樣的問題,還有手語中缺乏一些口語中的詞匯,最后是表情氣態(tài)也是手語表達中極為重要的一部分。
這些因素都決定了,手語AI合成主播沒那么簡單。
其次,國家手語標準在2019年才制定完成,行業(yè)內根本沒有現(xiàn)成的手語視頻圖像數(shù)據(jù)集可用。為此搜狗請來了三組人群組成的“顧問團”出謀劃策。
他們當中有制定手語標準的專家,有手語教師,還有正在使用手語的聽障人士。
搜狗通過采集他們的手語數(shù)據(jù),傾聽他們的使用感受,經(jīng)過一年多的打磨,“小聰”終于成功上線。
為何會是搜狗
在眾多AI科技公司中,為何是搜狗率先推出了手語AI合成主播?
其實并不意外,從2018年開始,搜狗就一直在探索AI數(shù)字人技術,在AI合成主播這條路上已經(jīng)有了3年多成功的落地經(jīng)驗。
這一次,搜狗不僅發(fā)布了手語AI合成主播,還發(fā)布了柳巖同款“數(shù)字人”,它可以在一條新聞中無縫切換多種方言,即使是柳巖本人不會的方言。
這項技術只需少量真實語音、視頻數(shù)據(jù),即可定制出高逼真度的分身模型,已經(jīng)成功運用在新華社、央視等媒體上。
由于搜狗AI團隊在超寫實3D數(shù)字人領域持續(xù)研發(fā)并取得了新的突破,這一次發(fā)布的手語數(shù)字人“小聰”,結合原力科技的行業(yè)最領先3D重光照掃描還原手語數(shù)字人高精度模型及采集的動畫數(shù)據(jù),輔助自研的表情肢體手勢捕捉技術,造就了這樣一個高度還原真人發(fā)膚、形象逼真、動作自然生動的數(shù)字人模型。
在積極探索AI落地之外,搜狗技術團隊同時也“悄悄”積累了大量基礎技術。
其中有多模態(tài)語言處理,用圖像視頻提高AI的文字處理能力。
例如2019年,搜狗一篇研究唇語提升語音識別準確率的論文論文,發(fā)表在信號處理領域頂級學術會議ICASSP上。
搜狗在數(shù)字人肢體驅動技術也有頗多探索,去年的ACM MM 2020上還發(fā)表了一篇虛擬人隨音樂節(jié)奏起舞的論文。
當然最重要可能也是搜狗AI團隊的技術情懷。
搜狗AI交互技術部總經(jīng)理陳偉說,有一件事給了他很大的觸動。
2019年一天深夜,他在微博上看到有聾啞人在吐槽搜狗的語音轉文字功能。在經(jīng)過一番溝通后,搜狗解決了這個技術問題。
其實早在手語主播之前,這些聽障人已經(jīng)在使用搜狗的語音識別技術來與其他普通人對話溝通。
所以在2020年以后,當搜狗3D數(shù)字人技術逐漸成熟后,搜狗團隊萌生了一個想法:為這群人打造一個真正有價值的AI主播。
搜狗是AI合成主播的開創(chuàng)者,站在技術最前沿的同時,也在思考技術所背負的社會責任感。
作為全球首個手語AI合成主播,“小聰”能夠幫助廣大聽障人士更好地接收資訊、更好地生活,也體現(xiàn)了搜狗AI技術的人文關懷。
至于我們何時能在電視上看到“小聰”,“今年年底預計會做到大規(guī)模的應用”,陳偉說。
- 腦機接口走向現(xiàn)實,11張PPT看懂中國腦機接口產(chǎn)業(yè)現(xiàn)狀|量子位智庫2021-08-10
- 張朝陽開課手推E=mc2,李永樂現(xiàn)場狂做筆記2022-03-11
- 阿里數(shù)學競賽可以報名了!獎金增加到400萬元,題目面向大眾公開征集2022-03-14
- 英偉達遭黑客最后通牒:今天必須開源GPU驅動,否則公布1TB機密數(shù)據(jù)2022-03-05