我和歐陽(yáng)娜娜一起搞研發(fā)
魚羊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
AI新聞播報(bào),開車明星導(dǎo)航,現(xiàn)如今根據(jù)文本生成語(yǔ)音的AI技術(shù),那真是飛入尋常百姓家——見怪不怪了。
在這檔口,作為這背后AI語(yǔ)音合成技術(shù)的研發(fā)人員,除了常規(guī)收集語(yǔ)音數(shù)據(jù)、訓(xùn)練模型、優(yōu)化模型……
還能玩出什么花兒來?
……跟歐陽(yáng)娜娜一起搞研發(fā),算不算?(誤)
“公費(fèi)追星”是一種怎樣的體驗(yàn)
故事要從一個(gè)不太普通的周一上午說起。
一大早,網(wǎng)易有道的語(yǔ)音工程師劉銀,就跟同事們一起搭上了飛往上海的飛機(jī)。
之所以說不普通,是因?yàn)檫@趟出差不僅有工作任務(wù),還寄托了前方后方一眾工程師們的一點(diǎn)小期待。
這是有道詞典明星語(yǔ)音二期項(xiàng)目的第一個(gè)階段——訓(xùn)練數(shù)據(jù)錄制。
去年9月,有道詞典上線了王源的明星語(yǔ)音,成為學(xué)習(xí)領(lǐng)域第一個(gè)上線該功能的產(chǎn)品,大受用戶好評(píng)。于是在進(jìn)一步打磨模型之后,他們打算趁熱打鐵,上線新的女聲明星語(yǔ)音。
而音源,正是劉銀和同事們這次要近距離接觸交流的歐陽(yáng)娜娜。
對(duì)于這樣的出差機(jī)會(huì),劉銀鎮(zhèn)守本部的同事們直言:“羨慕壞了。這哪是出差,根本就是粉絲見面會(huì)?!?/p>
但其實(shí)對(duì)于劉銀來說,興奮之余,也并非沒有壓力。
在有道詞典的明星語(yǔ)音功能中,熟悉的明星聲音能為你讀出每一個(gè)單詞、每一個(gè)例句。
很顯然,他們本身不可能完整地去錄制全部的語(yǔ)音。
甚至因?yàn)闀r(shí)間成本的關(guān)系,最后能真正喂給TTS(語(yǔ)音合成)模型的源語(yǔ)音也非常有限:幾個(gè)小時(shí)的錄音,最后能用的可能只有一小部分。
要用極少的數(shù)據(jù),最終合成出高質(zhì)量的語(yǔ)音,從采集訓(xùn)練數(shù)據(jù)開始,就要做到嚴(yán)格的把控。
有道的工程師們?yōu)榇俗隽藘墒譁?zhǔn)備。
一方面,結(jié)合一期項(xiàng)目的經(jīng)驗(yàn),不錄單詞,只錄簡(jiǎn)單的短句,在有限時(shí)間內(nèi)盡可能多地收集原始數(shù)據(jù)。
另一方面,就要靠劉銀等人跟歐陽(yáng)娜娜的臨場(chǎng)交流,需要他們以技術(shù)人員的視角來“導(dǎo)演”錄音過程,和歐陽(yáng)娜娜本人打出配合,以錄出可用性更高的語(yǔ)音數(shù)據(jù)。
所以這場(chǎng)“粉絲見面會(huì)”,還僅僅是一個(gè)開始。
如何把歐陽(yáng)娜娜的聲音裝進(jìn)有道詞典里
雖然已經(jīng)有過一次上線王源語(yǔ)音的經(jīng)驗(yàn),但在訓(xùn)練模型這個(gè)環(huán)節(jié),包括劉銀在內(nèi)的有道AI語(yǔ)音團(tuán)隊(duì)4人小組,還是花費(fèi)了2周多的時(shí)間在模型的調(diào)整上。
主要的原因在于,單詞和句子所需要的語(yǔ)音合成效果不同,在建模方面需要分別進(jìn)行調(diào)整。
同時(shí),針對(duì)模型本身,有道的工程師們進(jìn)行了多次對(duì)比實(shí)驗(yàn),包括經(jīng)典的基于注意力的Tacotron2模型,業(yè)內(nèi)最新的Non-Attention架構(gòu)等,以期實(shí)現(xiàn)最接近歐陽(yáng)娜娜本人聲音質(zhì)感,同時(shí)發(fā)音準(zhǔn)確、地道的合成效果。
例句級(jí)別:基于注意力的Tacotron模型
具體而言,在例句級(jí)別,工程師們采用了基于注意力的Tacotron模型。
Tacotron模型使用的是經(jīng)典的Seq2Seq架構(gòu),通過注意力機(jī)制來解決編碼器和解碼器長(zhǎng)度不一致的問題。
原始的Tacotron使用了Location Sensitive Attention。這種注意力機(jī)制的問題在于,不夠魯棒,且收斂速度較慢,尤其是在面對(duì)數(shù)據(jù)量較少的情況時(shí),缺點(diǎn)尤為明顯。其原因主要在于,沒有充分利用聲學(xué)模型的單調(diào)性這一特點(diǎn)。
對(duì)此,有道工程師采用了改進(jìn)版的Foward Attention,來替換Location Sensitive Attention,同時(shí)對(duì)注意力對(duì)齊矩陣進(jìn)行損失約束,以提升模型的穩(wěn)定性和收斂速度。
另外,基礎(chǔ)的Tacotron建模方案在某些發(fā)音(如低頻發(fā)音)上效果不夠好。為此,工程師們還采用了ASR(語(yǔ)音識(shí)別)來打輔助。
通過ASR的輔助建模,合成的句子語(yǔ)音可懂性更強(qiáng),準(zhǔn)確性和韻律方面也有所提升,可以解決在純TTS方案中,有一些音發(fā)不出來的問題。
單詞級(jí)別:基于時(shí)長(zhǎng)模型的Tacotron模型
再說說單詞方面。
前面也提到,為了節(jié)省時(shí)間成本,有道工程師們拿到的訓(xùn)練數(shù)據(jù)都是短句,沒有單詞。
這就導(dǎo)致在采用上述用于例句的TTS方案時(shí),合成的單詞讀音在韻律感和音調(diào)上會(huì)出現(xiàn)一定問題,比如對(duì)于單音節(jié)或雙音節(jié)單詞,出現(xiàn)重復(fù)發(fā)音、漏音、語(yǔ)速過快等情形。
為此,有道工程師們嘗試了業(yè)內(nèi)最新模型架構(gòu)Non-Attentive Tacotron,通過時(shí)長(zhǎng)模型來替代注意力計(jì)算模塊。
這樣做的好處是,基于時(shí)長(zhǎng)的模型可以顯式地調(diào)節(jié)每一個(gè)音素的發(fā)音時(shí)長(zhǎng),讓合成出來的單詞讀音更接近真人朗讀的效果。
同時(shí),Non-Attentive模型在保持模型穩(wěn)定性方面也更具優(yōu)勢(shì)。
而除了模型方面的精挑細(xì)選、精細(xì)打磨,值得一提的是,網(wǎng)易有道AI語(yǔ)音算法團(tuán)隊(duì)此次的新明星語(yǔ)音新增了大量高采樣率的英文女聲數(shù)據(jù),將采樣率從16K提升到了24K,這就讓合成語(yǔ)音在音質(zhì)、聽感和真實(shí)性方面有了進(jìn)一步的提升。
“做產(chǎn)品是嚴(yán)肅的,但技術(shù)允許試錯(cuò)”
從項(xiàng)目啟動(dòng)到最終上線,此次有道詞典的明星語(yǔ)音功能升級(jí)項(xiàng)目,整個(gè)研發(fā)周期大概持續(xù)了一個(gè)月的時(shí)間。
時(shí)間上看還是有點(diǎn)緊張,但對(duì)于研發(fā)小組的成員們來說,對(duì)于項(xiàng)目的興奮感遠(yuǎn)遠(yuǎn)超過了追趕deadline帶來的焦慮。
原因很簡(jiǎn)單——幾個(gè)人都是根據(jù)興趣自愿加入到項(xiàng)目當(dāng)中的。
△網(wǎng)易有道AI語(yǔ)音團(tuán)隊(duì)
除了劉銀,小組中其余幾人的主要技術(shù)棧都不是語(yǔ)音合成。
比如主要負(fù)責(zé)例句模型的王曉強(qiáng),日常更多承擔(dān)的是語(yǔ)音識(shí)別方向的研發(fā)工作——這與語(yǔ)音合成幾乎可以說是一個(gè)完全相反的方向。
甚至有一位同學(xué),此前的學(xué)習(xí)、工作內(nèi)容與深度學(xué)習(xí)完全不相關(guān),而是傳統(tǒng)的聲學(xué)前端方向。
畢業(yè)前,曾在多家公司有過實(shí)習(xí)經(jīng)歷的王曉強(qiáng)坦言:
這種允許跨領(lǐng)域的技術(shù)文化,其實(shí)是很少見的。
對(duì)于網(wǎng)易有道AI本身,這樣的包容度也著實(shí)可以貼上“大膽”的標(biāo)簽。
要知道,作為一款家喻戶曉的查詞工具,有道詞典是網(wǎng)易有道用戶量規(guī)模最大的產(chǎn)品,哪怕是一個(gè)微小功能的改動(dòng)都需要嚴(yán)肅對(duì)待,更不必說像明星語(yǔ)音這樣重要的功能更新。
但實(shí)際上,這樣的包容和信任,反而給了劉銀、王曉強(qiáng)等人更大的動(dòng)力——自己選擇承擔(dān)的任務(wù),就一定要做好。
從另一個(gè)層面來看,允許研發(fā)人員跨領(lǐng)域進(jìn)行技術(shù)交流,并實(shí)際操作落地,也促成了整個(gè)技術(shù)團(tuán)隊(duì)的成長(zhǎng)——不把技術(shù)視野局限在自己的一畝三分地,在思考問題時(shí),反而更容易激發(fā)創(chuàng)新的火花。
還有重要的一點(diǎn)是:
在自己感興趣的領(lǐng)域,有技術(shù)大佬帶著飛,不僅不用交學(xué)費(fèi),甚至還有工資拿,這真是太開心了。
如果跟網(wǎng)易有道AI語(yǔ)音算法工程師們多聊一聊,就會(huì)發(fā)現(xiàn),這支技術(shù)團(tuán)隊(duì)總是能把研發(fā)做成一件既靠譜又歡樂的事。
他們大都很年輕,思維活躍,性格跳脫,也更勇于創(chuàng)新和嘗試。但同時(shí),從學(xué)校到職場(chǎng),從舊環(huán)境到新環(huán)境,他們又能用理工科的理性思維,快速地認(rèn)識(shí)到應(yīng)該“做什么”、“怎么做”。
這也反映在了一個(gè)個(gè)受到用戶好評(píng)的語(yǔ)音功能上:能夠自動(dòng)進(jìn)行語(yǔ)言檢測(cè)的語(yǔ)音翻譯功能、英語(yǔ)跟讀打分、明星語(yǔ)音……
并且,他們還“上得了廳堂,下得了廚房”。不僅能在產(chǎn)品層面持續(xù)推動(dòng)技術(shù)落地,學(xué)術(shù)、比賽成績(jī)也拿得出手。比如去年,他們就曾在全球語(yǔ)音頂會(huì)INTERSPEECH 2020“口音英語(yǔ)語(yǔ)音識(shí)別挑戰(zhàn)賽”上名列前茅。
這樣的個(gè)人成長(zhǎng),背后也反映了網(wǎng)易有道對(duì)人才的重視。
有道AI語(yǔ)音團(tuán)隊(duì)負(fù)責(zé)人李慶輝就表示,一個(gè)腳踏實(shí)地的團(tuán)隊(duì),應(yīng)該給每個(gè)人充分的才華施展空間,而在這個(gè)空間之下,大家可以潛心鉆研技術(shù),在專注于自己側(cè)重點(diǎn)的情況下,去突破個(gè)人的局限。
而當(dāng)個(gè)人的能力不斷突破進(jìn)步,團(tuán)隊(duì)本身也就自然而然會(huì)成長(zhǎng)起來。
人才,就是公司、團(tuán)隊(duì)最大的財(cái)富。
(應(yīng)要求,文中所列人員均為化名)
- 標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來了!首創(chuàng)層次化評(píng)價(jià)體系,告別“誰(shuí)的demo更吸睛”主觀評(píng)估2025-08-16
- 阿里閃電入局Agent Infra!智能體新基建亮相WAIC,“超級(jí)大腦”開箱即用2025-07-31
- 世紀(jì)華通謝斐:在“三大平衡”中領(lǐng)跑,實(shí)現(xiàn)游戲行業(yè)更高質(zhì)量的發(fā)展2025-08-01
- 1.5B參數(shù)撬動(dòng)“吉卜力級(jí)”全能體驗(yàn),國(guó)產(chǎn)開源之光多模態(tài)統(tǒng)一模型,來了2025-07-30