谷歌AI練習(xí)生寫了首歌,網(wǎng)友聽完心率都低了
靠280000小時音樂訓(xùn)練數(shù)據(jù)
楊凈 衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
一段話整出一首歌,甚至是男女唱(跳)rap的那種。
谷歌最新模型MusicLM一經(jīng)推出就驚艷四座,不少網(wǎng)友驚呼:這是迄今聽到最好的譜曲。
它可以根據(jù)文本生成任何類型的音樂,不管是根據(jù)時間、地點、年代等各種因素來調(diào)節(jié),還是給故事情節(jié)、世界名畫配樂、生成人聲rap口哨,通通不在話下。
比如這幅《吶喊》(Scream)
在一段摘自百科的說明提示下,它就能生成一段高契合度的音樂。
(蒙克在一次幻覺經(jīng)歷中感受到并聽到了整個自然界的尖叫聲,它的靈感來源于此,描繪了一個驚慌失措的生物,既像尸體又讓人聯(lián)想到精子或胎兒,其輪廓與血紅色天空的旋渦線條相呼應(yīng)。)
ViT(Vision Transformer)作者在聽過一段關(guān)鍵詞含“平靜舒緩”“長笛和吉他”的生成音樂后,表示自己真的平靜下來。
也不免有同行表示,這對我來說比ChatGPT更值得關(guān)注,谷歌幾乎解決了音樂生成的問題。
畢竟MusicLM背靠280000小時音樂的訓(xùn)練數(shù)據(jù)庫,事實上從現(xiàn)釋出的Demo來看,MusicLM的能力還不止如此。
還可以5分鐘即興創(chuàng)作
可以看到,MusicLM最大的亮點莫過于就是根據(jù)豐富的文字描述來生成音樂,包括樂器、音樂風(fēng)格、適用場景、節(jié)奏音調(diào)、是否包括人聲(哼唱、口哨、合唱)等元素,以此來生成一段30秒的音樂。
即便說的只是那種說不清道不明的氛圍,“迷失在太空”、“輕松而悠閑”;又或者是直接用在一些實用場景上,比如“街機游戲配樂”、給繪畫配樂等。
除此之外,MusicLM具備長段音樂創(chuàng)作、故事模式、調(diào)節(jié)旋律等方面的能力。
在長段音樂方面, 它能完成5分鐘即興創(chuàng)作,即便提示只有一個詞。
比如僅在Swing(搖擺)的提示下,聽著真就有種想馬上下班去跳舞的沖動。(bushi)
而在故事模式中,不同的情標(biāo)記甚至可以精確到秒的生成,哪怕情境之間完全沒有任何聯(lián)系……
游戲中播放的歌曲(0到15秒)——河邊播放的冥想曲(15到20秒)——火(0:30-0:45)——煙花(0:45-0:60 )
更讓人驚艷到的是,它還有很強的實用性功能。
一方面,它可以將旋律的提示結(jié)合進(jìn)文本提示當(dāng)中去,這樣一來可以更精細(xì)地來調(diào)整音樂。有點改甲方爸爸需求那味了。
另一方面,它還能根據(jù)具體的樂器、地點、流派、年代、甚至是音樂家演奏水平等文本來生成。
背后生成模型MusicLM
但有一說一,AI生成音樂模型不在少數(shù),谷歌自己此前也推出有類似的模型AudioLM。
此番MusicLM究竟有何不同?
據(jù)研究團隊介紹,貢獻(xiàn)主要有三個方面:
- 生成模型MusicLM。
- 把方法擴展到其他條件信號,如根據(jù)文本提示合成的旋律,并生成5分鐘的demo。
- 發(fā)布了首個專門為文本-音樂生成任務(wù)評估數(shù)據(jù)集MusicCaps。
首先,MusicLM正是基于谷歌三個月前提出AudioLM模型的拓展。
AudioLM不需要轉(zhuǎn)錄或標(biāo)記,只需收聽音頻,AudioLM就能生成和提示風(fēng)格相符的連貫音樂,包括鋼琴音或人聲對話等復(fù)雜聲音。
而最新的MusicLM,就是利用了AudioLM的多階段自回歸建模作為生成條件,且以此為基礎(chǔ)進(jìn)行拓展,使其可以通過文本提示來生成和修改音樂。
它是一個分層的序列到序列(Sequence-to-Sequence)模型,可以通過文本描述,以24kHz的頻率生成音樂,并在幾分鐘內(nèi)保持這個頻率。
具體而言,研究團隊使用了三個模型來用來預(yù)訓(xùn)練,包括自監(jiān)督音頻表征模型SoundStream,它可以以低比特率壓縮一般音頻,同時保持高重建質(zhì)量。
還有語義標(biāo)記模型w2vBERT,促進(jìn)連貫生成;音頻文本嵌入模型Mulan,它可以將音樂及其對應(yīng)的文本描述投射到嵌入空間(以消除在訓(xùn)練時對文本的不同需求),并允許純音頻語料庫上進(jìn)行訓(xùn)練,以此來應(yīng)對訓(xùn)練數(shù)據(jù)有限的難題。
訓(xùn)練過程中,他們從純音頻訓(xùn)練集中提取MuLan音頻標(biāo)記、語義標(biāo)記和聲學(xué)標(biāo)記。
在語義建模階段,他們用MuLan音頻標(biāo)記作為條件來預(yù)測語義標(biāo)記。隨后在聲學(xué)建模階段,又基于MuLan音頻標(biāo)記和語義標(biāo)記來預(yù)測聲學(xué)標(biāo)記。
每個階段都被建模為一個序列-序列任務(wù),均使用單獨解碼器Transformer。
在推理過程中,他們使用從文本提示中計算出的MuLan文本標(biāo)記作為調(diào)節(jié)信號,并使用SoundStream解碼器將生成的音頻標(biāo)記轉(zhuǎn)換成波形。
在280000個小時的訓(xùn)練后,MusicLM最終學(xué)會了保持24kHz的頻率生成音樂,哪怕用來生成音樂的文本非常繞口。
類似“迷人的爵士歌曲與令人難忘的薩克斯獨奏和獨奏歌手”或“柏林90年代低音和強烈的電子樂”之類的。
研究團隊還引入了一個高質(zhì)量音樂數(shù)據(jù)集MusicCaps來解決任務(wù)缺乏評估數(shù)據(jù)的問題。
MusicCaps由專業(yè)人士共建,涵蓋5500個音樂-文本對。研究團隊公布了這個數(shù)據(jù)集,方便大伙進(jìn)一步的研究。
這么一套操作下來,通過定量指標(biāo)和人工評估,MusicLM在音頻質(zhì)量和文本契合度等方面都優(yōu)于此前的音樂生成AI。
不過,谷歌研究團隊說了:目前沒有對外發(fā)布MusicLM的計劃。
原因很簡單,除了訓(xùn)練過程中難免出現(xiàn)的樣本質(zhì)量失真,最最關(guān)鍵的還有2點。
一來,盡管MusicLM在技術(shù)上可以生成合唱和聲等人聲,但是仔細(xì)聽來,生成音樂的歌詞,有的還勉勉強強聽得出是音樂,有的根本就是無人能聽懂的外星方言。
再者,研究團隊發(fā)現(xiàn)系統(tǒng)生成的音樂中,約有1%直接從訓(xùn)練集的歌曲中復(fù)制——這已經(jīng)足以阻止對外發(fā)布MusicLM了。
此外,還有批評者質(zhì)疑,在受版權(quán)保護的音樂素材上訓(xùn)練AI模型到底合不合理。
不過團隊在論文中介紹了下一步動向,主要關(guān)注歌詞生成、改善提示文本準(zhǔn)確性以及提高生成質(zhì)量。
復(fù)雜音樂結(jié)構(gòu)的建模也將成為團隊的重點關(guān)注方向之一。
音頻生成AI
這個研究的背后團隊,是谷歌研究院。
共同一作Timo I. Denk,是谷歌瑞士的軟件工程師,每天的工作就是利用ML進(jìn)行音樂理解。
在這里多說兩句,MusicLM的論文中,研究團隊提到,MusicLM在質(zhì)量和提示依從性方面都優(yōu)于以前的系統(tǒng)。
“以前的系統(tǒng)”包括哪些?
一個是Mubert,已在Github開源API,是一個text-to-music的AI,系列產(chǎn)品有根據(jù)既有標(biāo)簽生成音樂的Mubert Render、聽歌軟件Mubert Play等。
還有Riffusion,它建立在AI繪圖的基礎(chǔ)上,但將其應(yīng)用于聲音。
換句話說,Riffusion的工作原理是首先構(gòu)建一個索引的頻譜圖集合,上面標(biāo)記代表頻譜圖中捕獲的音樂風(fēng)格的關(guān)鍵字。
在頻譜圖主體上訓(xùn)練時,Riffusion就用Stable Diffusion的同一個方法——干預(yù)噪音,來獲得與文本提示匹配的聲波圖像。
還有針對音樂制作人和音樂家的 AI 音頻生成工具Dance Diffusion,OpenAI推出的可自動生成音樂的ML框架Jukebox……
要咱說,別成天盯著ChatGPT了,AIGC下一個風(fēng)口萬一是音樂生成呢?
參考鏈接:
[1]https://google-research.github.io/seanet/musiclm/examples/
[2]https://arxiv.org/pdf/2301.11325.pdf
[3]https://techcrunch.com/2023/01/27/google-created-an-ai-that-can-generate-music-from-text-descriptions-but-wont-release-it/
- 英偉達(dá)最新芯片B30A曝光2025-08-20
- AI應(yīng)用如何落地政企?首先不要卷通用大模型2025-08-12
- 本科必學(xué)Dijkstra算法被超越!清華段然團隊打破圖靈獎得主證明的普遍最優(yōu)性2025-08-09
- 智能體邁入L4 時代!納米AI多智能體蜂群,可創(chuàng)作最長10分鐘AI視頻2025-08-06