僅用1/4數(shù)據(jù)量還原真人語(yǔ)音100%細(xì)節(jié),火山語(yǔ)音上新語(yǔ)音合成技術(shù)
火山語(yǔ)音通過(guò)火山引擎向外部企業(yè)開放技術(shù)服務(wù)
數(shù)星星盼月亮,萬(wàn)千杰迷苦等6年,不久之前終于等到周董發(fā)新專輯啦!一經(jīng)上線引爆全網(wǎng)討論。
正當(dāng)大家沉浸在對(duì)那時(shí)青蔥歲月的美好追憶時(shí),發(fā)來(lái)上述這段音頻的小伙伴表示:這段對(duì)話居然是語(yǔ)音合成的!提到“語(yǔ)音合成”,你腦海中可能會(huì)出現(xiàn)這樣的種種:
- 導(dǎo)航中種類豐富但語(yǔ)氣機(jī)械的“前方路口左轉(zhuǎn)”……
- 接電話時(shí),對(duì)面笨拙無(wú)感情的“您好,這里是xx信用卡中心”……
- 視頻網(wǎng)站上,十個(gè)解說(shuō)視頻九個(gè)聲音相同,看到就想趕快劃走的“注意看,這個(gè)男人叫小帥”……
而如今直接顛覆了許多人的刻板印象,語(yǔ)音合成技術(shù)已經(jīng)能做到像上面那段音頻一樣完美自然的效果了。這段音頻的發(fā)布者,火山語(yǔ)音,字節(jié)跳動(dòng) AI Lab Speech & Audio 智能語(yǔ)音與音頻團(tuán)隊(duì),為了更好地向大眾解密里面的技術(shù)亮點(diǎn)。
這幾句輸入的文本完全相同,即 “南方菜系偏愛蘸料,例如我第一次去上海才知道燒烤里的蔬菜也需要配蘸料” ,但合成的音頻效果卻有明顯差異,即第二段音頻來(lái)源于火山語(yǔ)音團(tuán)隊(duì)本次上新的超自然對(duì)話語(yǔ)音合成技術(shù)。
回想一下人在日常表達(dá)時(shí)的狀態(tài),大腦處理信息是需要思考時(shí)間的。體現(xiàn)到語(yǔ)言上,人就會(huì)不由自主的出現(xiàn)一些猶豫、拖音、倒裝,甚至是說(shuō)了一半改口、結(jié)巴重復(fù)的情況,也會(huì)刻意加重讀音強(qiáng)調(diào)想表達(dá)的重點(diǎn)信息。這就帶來(lái)了大量難以觀測(cè)的細(xì)微表達(dá)。這些現(xiàn)象在傳統(tǒng)的TTS中難以被捕捉還原。而這些細(xì)微之處的完美復(fù)現(xiàn)正是讓聲音真假難辨的奧妙之源,也是上述音頻的奧秘所在。
具體來(lái)說(shuō),火山語(yǔ)音團(tuán)隊(duì)最新發(fā)布的超自然對(duì)話語(yǔ)音合成技術(shù)相較傳統(tǒng)TTS更加真實(shí)自然,即語(yǔ)氣詞、吸氣聲、猶豫時(shí)的停頓以及字音拖長(zhǎng)等細(xì)節(jié)統(tǒng)統(tǒng)被完美復(fù)現(xiàn),而且只需常規(guī)音庫(kù)1/4數(shù)據(jù),就可完美還原真人說(shuō)話細(xì)微的韻律特點(diǎn)、發(fā)音口癖,讓合成效果更加真實(shí)。
有專業(yè)評(píng)測(cè)結(jié)果顯示,火山語(yǔ)音的這項(xiàng)新技術(shù)與真人錄音對(duì)比基本沒有差距,難以被評(píng)測(cè)者分辨出來(lái)。此外這項(xiàng)技術(shù)目前已在視頻配音、電話客服等多個(gè)場(chǎng)景投入應(yīng)用,近日即將上線火山引擎語(yǔ)音技術(shù)官網(wǎng)對(duì)外露出。
這么厲害的技術(shù),究竟是怎么辦到的?
據(jù)介紹,上述這些在實(shí)際交流中經(jīng)常出現(xiàn)的倒吸氣、吞音、思考時(shí)不由自主的拖長(zhǎng)字音、低笑等表現(xiàn)被稱為副語(yǔ)言現(xiàn)象(paralanguage),盡管這是人腦思考、表達(dá)過(guò)程中最真實(shí)的表現(xiàn),但由于傳統(tǒng)的語(yǔ)音合成技術(shù)框架無(wú)法對(duì)分布稀疏的副語(yǔ)言現(xiàn)象進(jìn)行有效建模,所以在說(shuō)話時(shí)的韻律還原度表現(xiàn)有限、過(guò)于“正確”?;谏鲜鲭y點(diǎn),火山語(yǔ)音超自然語(yǔ)音合成技術(shù)分別從文本和語(yǔ)音建模兩個(gè)層面進(jìn)行突破,具體來(lái)說(shuō):
- 在文本層面,火山語(yǔ)音采用了生成式的風(fēng)格遷移模型,模仿真人說(shuō)話的方式對(duì)文本進(jìn)行可控的口語(yǔ)化轉(zhuǎn)寫,讓文本更好地?fù)肀Э谡Z(yǔ)化,避免最終效果太過(guò)書面。
- 在語(yǔ)音層面,團(tuán)隊(duì)則是通過(guò)文本分析模型的突破,在TTS的輸入側(cè)額外增加了副語(yǔ)言預(yù)測(cè),模仿真人的發(fā)音特點(diǎn)來(lái)實(shí)現(xiàn)自然自發(fā)的語(yǔ)音效果。
值得一提的是,團(tuán)隊(duì)通過(guò)使用無(wú)監(jiān)督特征的TTS建模方案,有效提高了模型的穩(wěn)定性與表現(xiàn)力,僅僅使用常規(guī)音庫(kù)1/4的數(shù)據(jù)規(guī)模,就可以實(shí)現(xiàn)十分自然多變的韻律效果,很贊吧?
致力文本口語(yǔ)化 讓“擬真人表達(dá)”躍然紙上
文本作為語(yǔ)音合成技術(shù)的輸入,其風(fēng)格是否貼近真人的表達(dá)方式,是合成效果提升的第一步;但受限于根深蒂固的書寫用語(yǔ)習(xí)慣,大多數(shù)合成前的文本并不夠自然,或者需要投入大量精力不斷調(diào)整,費(fèi)時(shí)費(fèi)力。為了解決此類問(wèn)題,火山語(yǔ)音團(tuán)隊(duì)采用了兩階段方案并取得了不錯(cuò)的效果:
- 階段一:采用自監(jiān)督方法,使用偽數(shù)據(jù)對(duì)口語(yǔ)化模型進(jìn)行預(yù)訓(xùn)練,降低了數(shù)據(jù)量的需求;同時(shí)在模型中引入了指針網(wǎng)絡(luò)結(jié)構(gòu),增強(qiáng)了文本可控性。
- 階段二:利用少量?jī)?yōu)質(zhì)的人工標(biāo)注數(shù)據(jù),對(duì)預(yù)訓(xùn)練好的口語(yǔ)化模型進(jìn)行微調(diào),最終實(shí)現(xiàn)可控的、自然的口語(yǔ)化文本效果。
原始文本 |
自動(dòng)化預(yù)測(cè)后的文本 |
南方菜系偏愛蘸料,例如我第一次去上海才知道燒烤里的蔬菜也需要配蘸料 |
嗯,南方菜系的話,超級(jí)偏愛用蘸料啊什么的,就比如說(shuō)我第一次呃,第一次去上海的時(shí)候,才知道這個(gè)燒烤里的蔬菜也得配著蘸料 |
像我們上街去買白菜,南方人說(shuō)我要半顆白菜,北方人說(shuō)我來(lái)半車白菜 |
嗯這跟我們上街買白菜差不多吧,南方人說(shuō)我要半棵白菜,然后那個(gè)北方人說(shuō)我來(lái)半車 |
其實(shí)南方菜系更偏重吃調(diào)料的味道,即廚師用調(diào)料去發(fā)揮他的功力 |
對(duì),其實(shí)南方菜系更偏重的是吃它這個(gè)調(diào)料的味道,也就是說(shuō),廚師這個(gè),用調(diào)料去發(fā)揮他的功力 |
副語(yǔ)言建模+韻律多樣性可圈可點(diǎn)
語(yǔ)音真實(shí)感全面升級(jí)
為了更好地還原真人,區(qū)別于傳統(tǒng)的語(yǔ)音合成技術(shù),火山語(yǔ)音在副語(yǔ)言建模和韻律多樣性上也分別進(jìn)行了深入研究。在副語(yǔ)言建模方面,團(tuán)隊(duì)推出的合成技術(shù)實(shí)現(xiàn)了聲學(xué)模型對(duì)自然表達(dá)中出現(xiàn)的吸氣、笑聲、猶豫、修正等多種副語(yǔ)言現(xiàn)象建模,并且結(jié)合文本的語(yǔ)義信息自動(dòng)插入副語(yǔ)言現(xiàn)象。在插入過(guò)程中同時(shí)考慮合理性與隨機(jī)性,表現(xiàn)更加自然真實(shí)。
“在韻律多樣化的探究中,我們結(jié)合無(wú)監(jiān)督表征學(xué)習(xí)技術(shù),自主研發(fā)了高表現(xiàn)力的聲學(xué)模型框架,通過(guò)發(fā)音、韻律、音色解耦等方式,不但降低了數(shù)據(jù)量的需求,實(shí)現(xiàn)對(duì)出現(xiàn)頻率極低發(fā)音現(xiàn)象的高效建模;同時(shí)使用無(wú)監(jiān)督表征特征并結(jié)合音素級(jí)別的基頻、能量信息等,實(shí)現(xiàn)了韻律的自然多變,促成高質(zhì)量對(duì)話語(yǔ)音生成?!被鹕秸Z(yǔ)音團(tuán)隊(duì)總結(jié)道。
火山語(yǔ)音,字節(jié)跳動(dòng)AI Lab Speech&Audio智能語(yǔ)音與音頻團(tuán)隊(duì),長(zhǎng)期以來(lái)面向抖音、剪映、番茄小說(shuō)、飛書等業(yè)務(wù)提供領(lǐng)先的AI語(yǔ)音技術(shù)能力及全棧語(yǔ)音產(chǎn)品解決方案,并通過(guò)火山引擎向外部企業(yè)開放技術(shù)服務(wù)。