銅靈 發(fā)自 凹非寺
量子位 出品 | 公眾號 QbitAI
AI精準(zhǔn)模仿你的聲音,需要多大規(guī)模的訓(xùn)練?
浙江大學(xué)和微軟的新研究證明,從0開始學(xué)習(xí)你的聲音到準(zhǔn)確逼真,AI只需要200個音頻片段和相應(yīng)標(biāo)注,20分鐘的素材就足夠了。
并且,這是一種近乎無監(jiān)督學(xué)習(xí)方法,只需少量標(biāo)記和分類整理,直接投喂素材,就有千萬個你的聲音合成出來了。
如果投喂的是林志玲、郭德綱、新垣結(jié)衣的聲音……
目前,這個AI系統(tǒng)的單詞可識度準(zhǔn)確率達(dá)到了99.84%,論文已經(jīng)被機(jī)器學(xué)習(xí)頂會ICML 2019接收。
論文共同一作之一,還是位浙江大學(xué)的學(xué)霸本科生,目前大四在讀。又一位別人家的本科生來了!
細(xì)看下這個研究。
四步合成法
這項研究中主要涉及兩個任務(wù),文本到語音(TTS,也就是語音合成)和自動語音識別(ASR),缺乏足夠多的對齊數(shù)據(jù)(aligned data)是這兩個領(lǐng)域的一大問題。
但在這項研究中,研究人員提出了一種新型的幾乎無監(jiān)督的TTS和ASR大法,通過利用一系列成對的語音和文本數(shù)據(jù),和一部分額外的未配對數(shù)據(jù),實(shí)現(xiàn)了小樣本合成。
合成流程圖如下圖所示:
整個研究分為四個部分。
首先,研究人員通過自監(jiān)督學(xué)習(xí),利用語音和文本數(shù)據(jù),建立了語音和文本領(lǐng)域的語言理解和建模能力。
具體來講,他們使用去噪自編碼器,在編碼-解碼框架中重建了語言和文本。
其次,研究人員通過對偶轉(zhuǎn)換(Dual Transformation),分別訓(xùn)練模型將文本轉(zhuǎn)為語音和將語音轉(zhuǎn)為文本:
TTS模型將文本X轉(zhuǎn)換為語音Y,ASR模型利用轉(zhuǎn)換得到語音到文本數(shù)據(jù)進(jìn)行訓(xùn)練;ASR模型將語音Y轉(zhuǎn)換為文本X,然后TTS模型利用文本到語音數(shù)據(jù)訓(xùn)練。
對偶轉(zhuǎn)換在TTS和ASR模型之間重復(fù)迭代,逐步提高兩個任務(wù)的準(zhǔn)確性。
因為語音序列通常比其它學(xué)習(xí)任務(wù)的序列更長,所以序列中的一個錯誤會導(dǎo)致更嚴(yán)重的影響。
因此,研究人員進(jìn)一步利用文本和語音的雙向序列建模(Bidirectional Sequence Modeling)減緩錯錯相傳的問題。
最后,他們設(shè)計了一個基于Transformer的統(tǒng)一模型架構(gòu),能輸入和輸出語音和文本,并且能將上述模塊整合在一起,實(shí)現(xiàn)TTS和ASR的功能。
遠(yuǎn)高于基線
研究人員將這個方法與其他系統(tǒng)在TTS和ASR任務(wù)上進(jìn)行對比,并用MOS(平均主觀意見分)衡量合成音與真實(shí)人聲的相似度。
并且,用PER(音素錯誤率)衡量自動語音識別的表現(xiàn)。
結(jié)果顯示,這種方法的TTS任務(wù)上的MOS分達(dá)到了2.68,在ASR任務(wù)上的PER達(dá)到了11.7%。
但從這兩個成績看,這種方法得分已經(jīng)遠(yuǎn)高于200個配對樣本的基線模型數(shù)據(jù)了。
此外,研究人員還分別將不同的添加到系統(tǒng)中,結(jié)果顯示,當(dāng)分別加入去噪自編碼器(DAE)、對偶變換(DT)和雙向序列建模(BSM)模塊時,評分均有增高。
本科生一作
這篇論文出自一個全華人團(tuán)隊的,Yi Ren (任意)和Xu Tan是這篇論文的共同一作。
任意Linkedin主頁顯示,2015年在浙江大學(xué)計算機(jī)科學(xué)與技術(shù)專業(yè)入學(xué)后,任意先后在Dashbase、網(wǎng)易人工智能事業(yè)部、微軟中國和一知智能實(shí)習(xí)過。
也就是說,在本科還沒畢業(yè)的時候,當(dāng)大家都在忙畢業(yè)論文之際,學(xué)霸已經(jīng)是國際頂會的一作了。
譚旭是任意的師兄,2015年從浙大碩士畢業(yè)的,目前是微軟亞洲研究院機(jī)器學(xué)習(xí)小組的副研究員。
Xu Tan主要研究方向在深度學(xué)習(xí)和分布式機(jī)器學(xué)習(xí),以及它們在NLP、機(jī)器翻譯、搜索和推薦排名中的應(yīng)用。
此外,微軟的Tao Qin、Sheng Zhao、Tie-Yan Liu和浙大的Zhou Zhao也是這篇論文的作者之一。
傳送門
目前,項目地址和論文已經(jīng)放出,研究人員表示代碼也將在后面幾周開源。
項目地址:
https://speechresearch.github.io/unsuper/
論文地址:
https://speechresearch.github.io/papers/almost_unsup_tts_asr_2019.pdf
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點(diǎn)在北京中關(guān)村。期待有才氣、有熱情的同學(xué)加入我們!相關(guān)細(xì)節(jié),請在量子位公眾號(QbitAI)對話界面,回復(fù)“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
?’?’ ? 追蹤AI技術(shù)和產(chǎn)品新動態(tài)