網(wǎng)易伏羲兩篇論文入選ICASSP2022,開源全球首個中文精標(biāo)歌聲合成數(shù)據(jù)集
共同促進(jìn)AI音樂技術(shù)的普及和發(fā)展
近日,網(wǎng)易伏羲虛擬交互團(tuán)隊與西工大音頻語音與語言處理研究組謝磊團(tuán)隊合作的兩篇論文被ICASSP 2022接收,并受邀在本屆大會上向?qū)W術(shù)與工業(yè)界進(jìn)行研究報告。同時網(wǎng)易伏羲也將歌聲合成方面的最新研究成果,向業(yè)界和學(xué)術(shù)界進(jìn)行回饋,開源全球首個中文精標(biāo)歌聲合成數(shù)據(jù)集Opencpop,共同促進(jìn)AI音樂技術(shù)的普及和發(fā)展,降低中小型企業(yè)、高校、個人的研究門檻。
ICASSP(International Conference on Acoustics, Speech and Signal Processing)即國際聲學(xué)、語音與信號處理會議,是IEEE主辦的全世界最大的,也是最全面的信號處理及其應(yīng)用方面的頂級會議,在國際上享有盛譽(yù)并具有廣泛的學(xué)術(shù)影響力,在全球具有極高的權(quán)威性。
網(wǎng)易伏羲入選的兩篇論文“VISinger: Variational Inference with Adversarial Learning for End-to-End Singing Voice Synthesis”和“One-shot Voice Conversion For Style Transfer Based On Speaker Adaptation”,分別涉及歌聲合成和語音轉(zhuǎn)換等領(lǐng)域,體現(xiàn)了其在AI語音技術(shù)上的積累和創(chuàng)新。
歌聲合成是指輸入樂譜生成歌聲音頻的技術(shù),與語音合成相比,歌聲合成不僅需要根據(jù)樂譜內(nèi)容進(jìn)行正確發(fā)音,還要需要生成符合樂譜的標(biāo)注(如音高、歌唱節(jié)奏等)的信息。由于歌唱的基頻等聲學(xué)特征的變化范圍更廣,而且存在顫音等歌唱技巧,建模歌聲的難度會更大。論文中提出了一種完全端到端建模歌聲合成的一種方法,簡化歌聲合成的訓(xùn)練流程,合成的歌聲逼真生動。
語音轉(zhuǎn)換是一個在不改變語音內(nèi)容的前提下,改變語音中說話人音色的一項技術(shù),是語音研究領(lǐng)域中熱門的研究方向。網(wǎng)易伏羲所提出的是一種僅僅使用10秒左右的一句話,就可以復(fù)刻音色并且保持較高轉(zhuǎn)換質(zhì)量以及表現(xiàn)力的方法,大大降低了技術(shù)落地復(fù)雜度與成本,讓更多用戶與場景能夠獲得語音轉(zhuǎn)換的能力。
實(shí)際上,這項技術(shù)與傳統(tǒng)變聲器是類似的,都可以做到在保留說話內(nèi)容和情緒的同時,對音色進(jìn)行變換;與傳統(tǒng)變聲器不同的是,語音轉(zhuǎn)換技術(shù)可以實(shí)現(xiàn)到目標(biāo)音色的精確轉(zhuǎn)換,也不需要調(diào)節(jié)一系列參數(shù),在提高轉(zhuǎn)換質(zhì)量的同時降低使用門檻。
目前,歌聲合成和語音轉(zhuǎn)換技術(shù)已經(jīng)逐步落地應(yīng)用,并在虛擬偶像、音樂創(chuàng)作、游戲配樂等場景中嶄露出巨大的應(yīng)用潛力。此前,利用相關(guān)技術(shù)網(wǎng)易伏羲已成功打造《醒來》、《月滿景山》等多首受歡迎的AI原創(chuàng)歌曲,在網(wǎng)易云音樂上線就獲得好評不斷,被認(rèn)為媲美專業(yè)歌手。不久前上線的一站式音樂創(chuàng)作平臺網(wǎng)易天音小程序,也利用了相關(guān)技術(shù),只需輸入關(guān)鍵詞,10秒就能搞定詞曲編唱,生成一首歌曲。
與此同時,網(wǎng)易伏羲也將與多所高校聯(lián)合開源全球首個中文精標(biāo)歌聲合成數(shù)據(jù)集Opencpop,和歌聲合成方面的最新研究成果,回饋行業(yè)。歌聲合成是一項極具挑戰(zhàn)性的任務(wù),音域覆蓋,唱法建模等問題亟待解決,但由于缺少高質(zhì)量的歌聲合成數(shù)據(jù),僅有少量能夠自建數(shù)據(jù)的工業(yè)界玩家能夠參與其中。為了推進(jìn)AI音樂技術(shù)的普及與發(fā)展,全球首個高質(zhì)量中文歌聲合成數(shù)據(jù)集Opencpop應(yīng)運(yùn)而生,Open寓意開源、開放,C-pop則是指華語流行音樂。
數(shù)據(jù)集由100首純中文歌曲構(gòu)成,其中訓(xùn)練集包含95首,另外5首則為測試集。音頻在錄音棚環(huán)境錄制,音頻采樣率44.1kHz,24位深度,有效時長超5.2小時。同時,網(wǎng)易伏羲還提供了人工精標(biāo)的信息,包括MIDI、句子邊界、音符邊界、音素邊界、連音信息、呼吸聲、歌詞等信息。數(shù)據(jù)集單句時長控制在8秒內(nèi),共3756句。為方便研究者們快速進(jìn)行實(shí)驗(yàn),還在原始數(shù)據(jù)外,提供了分句音頻、訓(xùn)練集/測試集的抄本文件。
網(wǎng)易云音樂團(tuán)隊曾在過年期間使用該數(shù)據(jù)集,創(chuàng)作了AI單曲《攢錢回家過大年》,成為了該開源數(shù)據(jù)集的首批成果。Opencpop的誕生將降低中文歌聲合成研究道路上的數(shù)據(jù)門檻,更多人的加入也將促進(jìn)AI音樂技術(shù)的普及和發(fā)展。
- 超詳細(xì)!2025科技創(chuàng)變者大會最新議程公布!2025-08-21
- 中科慧遠(yuǎn)發(fā)布CASIVIBOT,以九年積累開啟AOI與機(jī)器人協(xié)同的品質(zhì)檢測新時代2025-08-20
- 嚯!剛剛,張麻子陪我玩黑猴了2025-08-19
- 機(jī)器人全產(chǎn)業(yè)鏈接會 FAIR plus 2026媒體見面會在京召開2025-08-16