搜狗發(fā)布新研究:語(yǔ)音+唇語(yǔ)讓語(yǔ)音識(shí)別更準(zhǔn)確
5月12日至17日,在英國(guó)布萊頓舉辦的學(xué)術(shù)會(huì)議上,搜狗的研究人員匯報(bào)了他們的研究成果。
曉查 發(fā)自 凹非寺
量子位 出品 | 公眾號(hào) QbitAI
未來(lái)的人類如何與機(jī)器人交流?我們既需要機(jī)器人模仿人類的語(yǔ)氣、表情、動(dòng)作,同樣也需要機(jī)器人能理解我們。
搜狗AI正在朝著這一步邁進(jìn):由人類說(shuō)一段話,AI根據(jù)唇形和語(yǔ)音準(zhǔn)確識(shí)別內(nèi)容。最近搜狗與清華天工研究院合作,在語(yǔ)音和唇語(yǔ)的多模態(tài)識(shí)別方面取得了重大成果。
相關(guān)論文《基于模態(tài)注意力的端到端音視覺語(yǔ)音識(shí)別》已經(jīng)發(fā)表在今年的學(xué)術(shù)會(huì)議ICASSP上。
ICASSP是全世界最大的,也是最全面的信號(hào)處理及其應(yīng)用方面的頂級(jí)會(huì)議,是IEEE的一個(gè)重要的年度會(huì)議,對(duì)于信號(hào)處理方面的學(xué)術(shù)人士有著重要意義。
5月12日至17日,在英國(guó)布萊頓舉辦的學(xué)術(shù)會(huì)議上,搜狗的研究人員匯報(bào)了他們的研究成果,顯示了搜狗在語(yǔ)音識(shí)別、多模態(tài)識(shí)別領(lǐng)域的技術(shù)領(lǐng)先性和原創(chuàng)實(shí)力。
語(yǔ)音+唇語(yǔ)識(shí)別
隨著語(yǔ)音識(shí)別的快速發(fā)展,純粹靠聲音的識(shí)別技術(shù)越來(lái)越成熟,識(shí)別準(zhǔn)確率達(dá)到98%以上,很多公司,包括搜狗在內(nèi)都推出了成熟的產(chǎn)品,比如搜狗輸入法語(yǔ)音輸入和搜狗智能錄音筆等。
但是純粹依靠語(yǔ)音的識(shí)別方式存在一個(gè)缺陷,就是無(wú)法在嘈雜環(huán)境下仍然保持較高的識(shí)別準(zhǔn)確率。
通常當(dāng)語(yǔ)音環(huán)境比較安靜時(shí),語(yǔ)音識(shí)別的準(zhǔn)確率會(huì)比較高,但當(dāng)語(yǔ)音環(huán)境較為嘈雜時(shí),語(yǔ)音識(shí)別的準(zhǔn)確率會(huì)明顯下降。
而視覺的識(shí)別方法不受環(huán)境聲音的影響,人在嘈雜環(huán)境下,聽不清對(duì)方講話時(shí),會(huì)自然的盯緊講話者的嘴巴,大致明白講話者的意思。實(shí)際上聽力障礙人士,正是通過講話者的唇語(yǔ)進(jìn)行交流的。
搜狗研究人員想到,如果讓AI也能把這兩種方法結(jié)合起來(lái),就能提高語(yǔ)音識(shí)別的準(zhǔn)確率。
早在2017年年底,搜狗就已經(jīng)發(fā)布了一個(gè)唇語(yǔ)識(shí)別的初步成果,是業(yè)內(nèi)首家公開展示唇語(yǔ)識(shí)別的公司。但當(dāng)時(shí)的準(zhǔn)確率僅有50%~60%,限制了它的實(shí)際應(yīng)用,而且搜狗語(yǔ)音和唇語(yǔ)的技術(shù)也一直是分開做的。
經(jīng)過一年多的發(fā)展,唇語(yǔ)識(shí)別技術(shù)已經(jīng)有了很大的提升,搜狗團(tuán)隊(duì)開始考慮將聽覺與視覺兩種識(shí)別的模式融合起來(lái),即所謂的“多模態(tài)”識(shí)別,這是搜狗唇語(yǔ)識(shí)別繼烏鎮(zhèn)互聯(lián)網(wǎng)大會(huì)發(fā)布后的新突破。
原理簡(jiǎn)介
但多模態(tài)識(shí)別不是簡(jiǎn)單的把音頻和視頻的識(shí)別疊加起來(lái),在這個(gè)過程中,研究人員需要克服兩個(gè)難題。
1、音頻和視頻幀率不同
聲音和視覺特征是兩種本質(zhì)上差異很大的模態(tài),而且原始幀速率通常不一樣,音頻為每秒100幀,而視頻為每秒24幀。
采用直接拼接的方法會(huì)造成信息損失,使得聽覺特征在模型訓(xùn)練過程中起到主導(dǎo)作用,造成模型訓(xùn)練難收斂,視覺信息對(duì)聽覺信息的提升有限。
2、如何選擇音頻和視頻的貢獻(xiàn)比例
在安靜的情況下應(yīng)該是語(yǔ)音占主導(dǎo),在嘈雜環(huán)境下一定是視頻占主導(dǎo)。如何根據(jù)不同的環(huán)境選擇二者的比例。
搜狗的做法是 “基于注意力的編碼器解碼器”。在這個(gè)框架下,分別使用兩個(gè)神經(jīng)網(wǎng)絡(luò)編碼器對(duì)輸入的不同模態(tài)的序列進(jìn)行逐層特征抽取,得到高層特征表達(dá)。然后,由解碼器分別對(duì)不同模態(tài)的特征表達(dá)進(jìn)行注意力計(jì)算,得到聲音和視覺模態(tài)信息中對(duì)應(yīng)于當(dāng)前解碼時(shí)刻的上下文向量(context vector)。不同模態(tài)的上下文向量經(jīng)由模態(tài)間的注意力自動(dòng)對(duì)不同模態(tài)的信息進(jìn)行融合,并輸入到輸出層得到解碼輸出。
可見在編解碼框架下,由于融合的是不同模態(tài)的context vector,而不是對(duì)原始特征或者編碼器輸出的高層特征進(jìn)行直接融合,解決了不同模態(tài)的特征長(zhǎng)度不同的問題。
同時(shí),這種模態(tài)注意力(Modality Attention)依據(jù)不同模態(tài)各自的重要程度計(jì)算出相應(yīng)的融合系數(shù),反應(yīng)了不同模態(tài)在當(dāng)前解碼時(shí)刻的不同貢獻(xiàn)度,可以隨著不同解碼時(shí)刻的不同信噪比等得到不同的模態(tài)融合權(quán)重,得到更加魯棒的融合信息。
搜狗從去年6月開始立項(xiàng),10月就完成并投遞了論文,在這個(gè)過程中,融合模型的設(shè)計(jì)是其中最困難的一步,研究人員周盼介紹說(shuō),他們?cè)谶@個(gè)問題上花費(fèi)了大約一半的時(shí)間。
實(shí)驗(yàn)結(jié)果證實(shí)了搜狗努力獲得的回報(bào)。在信噪比為0dB(信號(hào)與噪聲大小相當(dāng))時(shí),搜狗的多模態(tài)識(shí)別將準(zhǔn)確率提高了30%。
而且模型在不同噪聲下,體現(xiàn)出了對(duì)語(yǔ)音和視頻兩種不同模態(tài)間的依賴。隨著噪聲的提升,模型在融合音視覺時(shí),對(duì)視覺信息的依賴比例在逐漸提升。
0dB信噪比時(shí),視頻的注意力權(quán)重接近40%,高于語(yǔ)音清晰環(huán)境中35.9%的比例。
應(yīng)用前景
現(xiàn)場(chǎng),搜狗像我們展示了一段Demo,模擬了各種嘈雜環(huán)境下的多模態(tài)識(shí)別。
在模擬乘坐地鐵的環(huán)境中,可以看到無(wú)論是單獨(dú)的語(yǔ)音識(shí)別和唇語(yǔ)識(shí)別都無(wú)法正確還原原來(lái)的語(yǔ)句,但是二者結(jié)合起來(lái),就可以正確識(shí)別出“北京今天天氣怎么樣”這句話。
語(yǔ)音交互技術(shù)中心首席科學(xué)家陳偉還特別指出,視頻識(shí)別還能根據(jù)唇形識(shí)別語(yǔ)句在何處結(jié)束,也提高了在嘈雜環(huán)境下識(shí)別的準(zhǔn)確率。
這么實(shí)用的功能何時(shí)才能用上呢?陳偉預(yù)計(jì),多模態(tài)語(yǔ)音識(shí)別將在搜狗的手機(jī)輸入法中集成,目前搜狗還在和車廠合作通過車內(nèi)的麥克風(fēng)、攝像頭做出更準(zhǔn)確的語(yǔ)音識(shí)別。
輸入法走向?qū)υ?、搜索走向問答,是搜狗一?xiàng)長(zhǎng)期戰(zhàn)略。未來(lái)視頻識(shí)別的場(chǎng)景會(huì)越來(lái)越多,所以搜狗認(rèn)為多模態(tài)識(shí)別是NLP研究發(fā)展的一個(gè)必然的趨勢(shì)。
當(dāng)然,在搜狗暢想的未來(lái)中,多模態(tài)識(shí)別的終極形態(tài)就是與AI分身的結(jié)合。