當你的童年男神學會了多種語言無縫切換
字節(jié)跳動 AI Lab 語音與音頻團隊已能提供超過「17種語言」、「13種方言」、「100+不同風格」媲美真人的音色,其音頻生成能力也通過火山引擎逐步面向市場開放。>
經(jīng)常在抖音上看視頻或者使用過剪映創(chuàng)作短視頻的朋友,一定對下方視頻里的聲音非常熟悉:
聽完了不同音色、不同語言的配音, 再來見識一下中、英、日三種語言無縫切換的海綿:
無論是豐富的多語言配音,還是跨語言合成,這些令人驚艷的聲音效果都來自于語音合成技術。近期,為上述能力提供技術支持的字節(jié)跳動 AI Lab Speech & Audio Team 智能語音與音頻團隊(后文簡稱?SA團隊?)已經(jīng)將最新升級的多語言、跨語言合成技術落地,用戶可以在視頻創(chuàng)作工具剪映、CapCut平臺使用這些功能。企業(yè)用戶也可以通過火山引擎使用到同款音頻技術。
「聽得懂」、「說得好」、「會的多」的音色是這樣生成的
在跟隨CapCut深入不同國家地區(qū)本地化的過程中,字節(jié)跳動SA團隊為其提供當?shù)厥褂谜Z言的合成能力。想要提供符合當?shù)匚幕?、滿足當?shù)貏?chuàng)作內容偏好且豐富多樣的音色,對語種數(shù)量、音色豐富度、語言地道性、風格表現(xiàn)力、生產(chǎn)速度等都提出了極大的挑戰(zhàn)。
傳統(tǒng)TTS(語音合成)的制作過程是,選擇一位能說地道語言的發(fā)音人錄制大量高質量語音數(shù)據(jù),通過有該語言專業(yè)背景的團隊進行標注處理,最后通過合成技術訓練出對應音色,實現(xiàn)上線運用。然而在目標為多語種合成的前提下,傳統(tǒng)的語音合成方式面臨以下問題:
- 數(shù)據(jù)獲取難:不同國家的文化法律對深度合成技術限制不同,且除中美日等配音行業(yè)較為發(fā)達的國家地區(qū)外,經(jīng)過專業(yè)培養(yǎng)的優(yōu)質發(fā)音人較為稀缺,可選發(fā)音人資源受限。
- 專業(yè)要求高:錄制的音頻數(shù)據(jù)需要懂該語言的專業(yè)人士進行數(shù)據(jù)標注處理,部分小語種專業(yè)人才獲取難度極高。
- 訓練難度大:傳統(tǒng)技術框架下,很難細粒度建模不同語言、不同風格的韻律效果,使得合成聲音的表現(xiàn)力難以達到創(chuàng)作者的更高預期。
- 消耗成本高:相比中文,多語言生產(chǎn)無論是從發(fā)音人,專業(yè)人士配置、過程生產(chǎn)都會產(chǎn)生更高的成本。
為了解決這四大難題,字節(jié)跳動SA團隊提出了多語言、跨語言合成方案,低成本高效批量地生產(chǎn)出「聽的懂」、「說的好」、「會的多」的音色。
- 「聽的懂」指發(fā)音準確、清晰,可懂度高。
- 「說的好」指口音地道,符合Native speaker習慣。
- 「會的多」指單語發(fā)音人可以具備多種語言、口音能力。
這一方案主要在細粒度韻律建模和跨語言遷移兩個方向進行突破:
細粒度韻律建模,打造不同語言、口音、風格的音色矩陣
不同的語言、方言、風格都具備自身的韻律特點,有不同的語速、語調、重音模式等語音變化信息,這種細粒度的韻律特征顯著地影響著發(fā)音準確性和地道性,尤其是對于像英語這樣的重音語言(pitch-accent language),而傳統(tǒng)的端到端神經(jīng)網(wǎng)絡框架很難隱式建模和控制這種細粒度的韻律特征變化。
為了解決細粒度韻律建模的問題,字節(jié)跳動SA團隊研發(fā)了音素級別細粒度韻律建模的AM架構(Fine-grained prosody modeling in neural speech synthesis using ToBIrepresentation,Yuxiang Zou,etc,Interspeech 2021),通過引入了音素級別ToBI韻律特征(包括pitch accent、phrase accent和boundary tone),結合音素級的pitch、energy構成的variance adaptor,可以分別實現(xiàn)音節(jié)、短語、和句子級別語調、重音模式變化。相比于傳統(tǒng)的隱式韻律特征學習,該方案可以實現(xiàn)更加準確、地道的語音,達成單語言「聽的懂」、「說的好」的目標。
傳統(tǒng)方案:Was there a lot of music?
細粒度韻律建模:Was there a lot of music?
跨語言遷移,突破資源瓶頸,實現(xiàn)同一聲音演繹多國語言
雖然基于細粒度的韻律建??梢詫崿F(xiàn)更加準確、地道的語音合成效果,但這依舊要求發(fā)音人本身要具備相應的語言能力,還要滿足一定數(shù)據(jù)量,極大的限制了TTS擴量能力,難以滿足業(yè)務拓展的速度,以及對視頻創(chuàng)作熱點、爆款音色的快速跟進。
那么如何讓發(fā)音人突破這個限制 ?實現(xiàn)「會的多」的目標是提升語音合成產(chǎn)能的關鍵。
字節(jié)跳動SA團隊將遷移學習技術應用到了語音合成當中,結合無監(jiān)督表征學習技術,研發(fā)了跨語言遷移的聲學模型框架,主要解決特征空間解耦和分布映射的問題,通過SCLN和無監(jiān)督表征,達到說話人、韻律、風格等特征解耦,將不同語種映射到同一個發(fā)音空間。通過跨語言遷移技術,可以實現(xiàn)讓一個非母語發(fā)音人,具備達到native speaker程度的說話能力,實現(xiàn)跨語言「說的好」、「會的多」的目標。
英語原聲:Would you like to pay in cash or credit cards?
印尼語遷移:Telah terdaftar di pom sehingga terjamin kualitasnya.
巴西葡萄牙語遷移:Compre sua máquina de cart?o crédito e débito.
同時為了提高標注效率,研究人員還研發(fā)了相應的自動切分工具和標注工具,自動標注流程的建立,使數(shù)據(jù)標注不再成為瓶頸。
通過技術的不斷探索與迭代、主動適應不同國家地區(qū)的用戶需求,SA團隊已能提供超過「17種語言」、「13種方言」、「100+不同風格」媲美真人的音色,并且在「跨語言遷移」效果上取得突破,成功應用到視頻配音場景,為剪映、CapCut國內外各地區(qū)的創(chuàng)作者們提供了更優(yōu)質的本地化配音能力,在多個國家和地區(qū)獲得用戶的廣泛好評。
來看看真實用戶們的聲音:
翻譯:CapCut的文本朗讀功能好厲害,「坊ちゃん」 (萌娃)真的是可愛娃娃的聲音,好自然… 帥大叔的聲音也有了嗎?twitter@mikisandayo_
翻譯:CapCut新出的文本朗讀音色通用性很強,而且超級卡哇伊!大家喜歡哪個聲音呢~
隨著技術能力在業(yè)務上得到不斷的驗證,用戶真實的聲音越來越大。SA 團隊的音頻生成能力也通過火山引擎逐步面向市場開放,為多個行業(yè)伙伴提供領先的音頻技術。包括為互娛用戶提供豐富的配音玩法,激發(fā)創(chuàng)造力;為小說用戶提供沉浸式聽書體驗,打造精品AI主播;為智能交互企業(yè)、硬件廠商打造助手音色實現(xiàn)降本增效等等;并在視頻剪輯、有聲書、汽車、電商等行業(yè)均達成了行業(yè)頭部客戶合作,成功實現(xiàn)了能力在各行各業(yè)中的應用與拓展。
關于字節(jié)跳動AILab智能語音與音頻團隊
字節(jié)跳動 AI Lab Speech & Audio 智能語音與音頻團隊,致力于為公司各個業(yè)務提供音頻理解、音頻合成、對話交互、音樂檢索和智能教學等多種 AI 能力與方案。自 2017 年成立以來,團隊專注于研發(fā)行業(yè)領先的 AI 智能語音技術,不斷探索 AI 與業(yè)務場景的結合,以實現(xiàn)更大的用戶價值。為今日頭條、抖音、剪映、西瓜視頻、番茄小說、飛書辦公套件、大力智能教育臺燈等字節(jié)跳動旗下的明星級產(chǎn)品提供了各類 AI 解決方案。截至目前,已服務了上百個業(yè)務合作伙伴。伴隨字節(jié)跳動業(yè)務的快速發(fā)展,SA團隊的語音識別和語音合成覆蓋了多種語言和方言。未來,SA團隊希望發(fā)展 70+ 語言和 20+ 方言,用于滿足內容創(chuàng)作與交流平臺的需求。團隊已有 17 篇論文入選 AI 頂級會議,其中音頻生成方向接受了 8 篇論文。
- 超詳細!2025科技創(chuàng)變者大會最新議程公布!2025-08-21
- 中科慧遠發(fā)布CASIVIBOT,以九年積累開啟AOI與機器人協(xié)同的品質檢測新時代2025-08-20
- 嚯!剛剛,張麻子陪我玩黑猴了2025-08-19
- 機器人全產(chǎn)業(yè)鏈接會 FAIR plus 2026媒體見面會在京召開2025-08-16