AI說書媲美真人!豆包語音大模型升級(jí)長(zhǎng)上下文理解
優(yōu)化后的豆包語音模型在小說演播場(chǎng)景,CMOS(Comparative Mean Opinion Score,與真人打?qū)Ρ确值囊环N主觀評(píng)分方式)已達(dá)一流主播的90%+效果。
允中 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
市面上很多的語音模型已經(jīng)能保證足夠自然的合成表現(xiàn),但在音質(zhì)、韻律、情感,以及多角色演繹上還有探索空間。特別是在小說演播場(chǎng)景下,想要媲美一流主播細(xì)膩的演播效果,要做好旁白和角色的區(qū)分演繹、角色情感的精確表達(dá)、不同角色的區(qū)分度等。
傳統(tǒng)的小說TTS生成方式,需要提前給對(duì)話旁白、情感、角色打標(biāo)簽,而豆包語音模型則可以做到端到端合成,無需額外標(biāo)簽標(biāo)注。
△傳統(tǒng)語音模型和豆包語音模型合成鏈路的區(qū)別
改進(jìn)Seed-TTS技術(shù),合成語音效果媲美真人
原始Seed-TTS(技術(shù)報(bào)告:https://arxiv.org/pdf/2406.02430)是一種自回歸文本到語音模型,主要分為4個(gè)主要模塊:Speech Tokenizer、Autoregressive Transformer、Diffusion Model、Acoustic Vocoder。
其中Speech Tokenizer解析了參考音頻信息,決定了合成音頻的音色和全局風(fēng)格;Autoregressive Transformer接收傳入的目標(biāo)文本和Speech Tokenizer的輸出,進(jìn)而生成出包含語義信息的Semantic Token;Diffusion Model會(huì)基于Semantic Token建模出包含語音信息的Acoustic Token;Acoustic Vocoder負(fù)責(zé)將Acoustic Token重建還原出最終的音頻。
△原始Seed-TTS架構(gòu)
為進(jìn)一步提升小說演播下的語音表現(xiàn)力和長(zhǎng)文本的理解,豆包技術(shù)團(tuán)隊(duì)對(duì)Seed-TTS進(jìn)行了改進(jìn)。
- 在數(shù)據(jù)上,小說音頻做章節(jié)級(jí)別處理,保證了長(zhǎng)文下的語音一致性和連貫性。
- 在特征上,融合TTS前端提取的音素、音調(diào)、韻律信息和原始文本,提升發(fā)音和韻律的同時(shí),保留小說語義。
- 在結(jié)構(gòu)上,將speech tokenizer改為speaker embedding,解除reference audio對(duì)于語音風(fēng)格的限制,因而同一個(gè)發(fā)音人能在不同角色上作出更貼合人設(shè)的演繹。
- 最后在目標(biāo)合成文本之外,額外加入了上下文的信息,從而使得模型能夠感知更大范圍的語義信息,旁白和角色音表現(xiàn)更精準(zhǔn)到位。
經(jīng)過專業(yè)評(píng)測(cè),優(yōu)化后的豆包語音模型在小說演播場(chǎng)景,CMOS(Comparative Mean Opinion Score,與真人打?qū)Ρ确值囊环N主觀評(píng)分方式)已達(dá)一流主播的90%+效果。
△優(yōu)化后的豆包語音模型結(jié)構(gòu)
技術(shù)落地番茄小說,惠及聽書用戶
豆包語音大模型團(tuán)隊(duì)以王明軍、李滿超兩位演播圈大咖的聲音為基礎(chǔ),采用新技術(shù)合成的千部有聲書,已上線番茄小說,題材覆蓋了歷史、懸疑、靈異、都市、腦洞、科幻等熱門書目類型。


據(jù)了解,未來豆包語音模型會(huì)繼續(xù)探索前沿科技與業(yè)務(wù)場(chǎng)景的結(jié)合,追求更極致的“聽”體驗(yàn)。
- 4o-mini華人領(lǐng)隊(duì)也離職了,這次不怪小扎2025-08-19
- 宇樹機(jī)器人“撞人逃逸”火到國(guó)外,王興興回應(yīng):下次不遙控了2025-08-16
- 突破Claude-4編程上限!自進(jìn)化Agent框架拿下新SOTA,已開源2025-08-19
- 讓OpenAI只領(lǐng)先5天,百川發(fā)布推理新模型,掀翻醫(yī)療垂域開源天花板2025-08-11