国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

谷歌AI練習(xí)生寫了首歌，網(wǎng)友聽完心率都低了

白交 2023-01-28 13:44:09 來源：量子位

靠280000小時音樂訓(xùn)練數(shù)據(jù)

楊凈衡宇發(fā)自凹非寺

量子位 | 公眾號 QbitAI

一段話整出一首歌，甚至是男女唱（跳）rap的那種。

谷歌最新模型MusicLM一經(jīng)推出就驚艷四座，不少網(wǎng)友驚呼：這是迄今聽到最好的譜曲。

它可以根據(jù)文本生成任何類型的音樂，不管是根據(jù)時間、地點、年代等各種因素來調(diào)節(jié)，還是給故事情節(jié)、世界名畫配樂、生成人聲rap口哨，通通不在話下。

比如這幅《吶喊》（Scream）

在一段摘自百科的說明提示下，它就能生成一段高契合度的音樂。

（蒙克在一次幻覺經(jīng)歷中感受到并聽到了整個自然界的尖叫聲，它的靈感來源于此，描繪了一個驚慌失措的生物，既像尸體又讓人聯(lián)想到精子或胎兒，其輪廓與血紅色天空的旋渦線條相呼應(yīng)。）

ViT（Vision Transformer）作者在聽過一段關(guān)鍵詞含“平靜舒緩”“長笛和吉他”的生成音樂后，表示自己真的平靜下來。

也不免有同行表示，這對我來說比ChatGPT更值得關(guān)注，谷歌幾乎解決了音樂生成的問題。

畢竟MusicLM背靠280000小時音樂的訓(xùn)練數(shù)據(jù)庫，事實上從現(xiàn)釋出的Demo來看，MusicLM的能力還不止如此。

還可以5分鐘即興創(chuàng)作

可以看到，MusicLM最大的亮點莫過于就是根據(jù)豐富的文字描述來生成音樂，包括樂器、音樂風(fēng)格、適用場景、節(jié)奏音調(diào)、是否包括人聲（哼唱、口哨、合唱）等元素，以此來生成一段30秒的音樂。

即便說的只是那種說不清道不明的氛圍，“迷失在太空”、“輕松而悠閑”；又或者是直接用在一些實用場景上，比如“街機游戲配樂”、給繪畫配樂等。

除此之外，MusicLM具備長段音樂創(chuàng)作、故事模式、調(diào)節(jié)旋律等方面的能力。

在長段音樂方面，它能完成5分鐘即興創(chuàng)作，即便提示只有一個詞。

比如僅在Swing（搖擺）的提示下，聽著真就有種想馬上下班去跳舞的沖動。（bushi）

而在故事模式中，不同的情標(biāo)記甚至可以精確到秒的生成，哪怕情境之間完全沒有任何聯(lián)系……

游戲中播放的歌曲（0到15秒）——河邊播放的冥想曲（15到20秒）——火(0:30-0:45)——煙花(0:45-0:60 )

更讓人驚艷到的是，它還有很強的實用性功能。

一方面，它可以將旋律的提示結(jié)合進(jìn)文本提示當(dāng)中去，這樣一來可以更精細(xì)地來調(diào)整音樂。有點改甲方爸爸需求那味了。

另一方面，它還能根據(jù)具體的樂器、地點、流派、年代、甚至是音樂家演奏水平等文本來生成。

背后生成模型MusicLM

但有一說一，AI生成音樂模型不在少數(shù)，谷歌自己此前也推出有類似的模型AudioLM。

此番MusicLM究竟有何不同？

據(jù)研究團隊介紹，貢獻(xiàn)主要有三個方面：

生成模型MusicLM。
把方法擴展到其他條件信號，如根據(jù)文本提示合成的旋律，并生成5分鐘的demo。
發(fā)布了首個專門為文本-音樂生成任務(wù)評估數(shù)據(jù)集MusicCaps。

首先，MusicLM正是基于谷歌三個月前提出AudioLM模型的拓展。

AudioLM不需要轉(zhuǎn)錄或標(biāo)記，只需收聽音頻，AudioLM就能生成和提示風(fēng)格相符的連貫音樂，包括鋼琴音或人聲對話等復(fù)雜聲音。

而最新的MusicLM，就是利用了AudioLM的多階段自回歸建模作為生成條件，且以此為基礎(chǔ)進(jìn)行拓展，使其可以通過文本提示來生成和修改音樂。

它是一個分層的序列到序列（Sequence-to-Sequence）模型，可以通過文本描述，以24kHz的頻率生成音樂，并在幾分鐘內(nèi)保持這個頻率。

具體而言，研究團隊使用了三個模型來用來預(yù)訓(xùn)練，包括自監(jiān)督音頻表征模型SoundStream，它可以以低比特率壓縮一般音頻，同時保持高重建質(zhì)量。

還有語義標(biāo)記模型w2vBERT，促進(jìn)連貫生成；音頻文本嵌入模型Mulan，它可以將音樂及其對應(yīng)的文本描述投射到嵌入空間（以消除在訓(xùn)練時對文本的不同需求），并允許純音頻語料庫上進(jìn)行訓(xùn)練，以此來應(yīng)對訓(xùn)練數(shù)據(jù)有限的難題。

訓(xùn)練過程中，他們從純音頻訓(xùn)練集中提取MuLan音頻標(biāo)記、語義標(biāo)記和聲學(xué)標(biāo)記。

在語義建模階段，他們用MuLan音頻標(biāo)記作為條件來預(yù)測語義標(biāo)記。隨后在聲學(xué)建模階段，又基于MuLan音頻標(biāo)記和語義標(biāo)記來預(yù)測聲學(xué)標(biāo)記。

每個階段都被建模為一個序列-序列任務(wù)，均使用單獨解碼器Transformer。

在推理過程中，他們使用從文本提示中計算出的MuLan文本標(biāo)記作為調(diào)節(jié)信號，并使用SoundStream解碼器將生成的音頻標(biāo)記轉(zhuǎn)換成波形。

在280000個小時的訓(xùn)練后，MusicLM最終學(xué)會了保持24kHz的頻率生成音樂，哪怕用來生成音樂的文本非常繞口。

類似“迷人的爵士歌曲與令人難忘的薩克斯獨奏和獨奏歌手”或“柏林90年代低音和強烈的電子樂”之類的。

研究團隊還引入了一個高質(zhì)量音樂數(shù)據(jù)集MusicCaps來解決任務(wù)缺乏評估數(shù)據(jù)的問題。

MusicCaps由專業(yè)人士共建，涵蓋5500個音樂-文本對。研究團隊公布了這個數(shù)據(jù)集，方便大伙進(jìn)一步的研究。

這么一套操作下來，通過定量指標(biāo)和人工評估，MusicLM在音頻質(zhì)量和文本契合度等方面都優(yōu)于此前的音樂生成AI。

不過，谷歌研究團隊說了：目前沒有對外發(fā)布MusicLM的計劃。

原因很簡單，除了訓(xùn)練過程中難免出現(xiàn)的樣本質(zhì)量失真，最最關(guān)鍵的還有2點。

一來，盡管MusicLM在技術(shù)上可以生成合唱和聲等人聲，但是仔細(xì)聽來，生成音樂的歌詞，有的還勉勉強強聽得出是音樂，有的根本就是無人能聽懂的外星方言。

再者，研究團隊發(fā)現(xiàn)系統(tǒng)生成的音樂中，約有1%直接從訓(xùn)練集的歌曲中復(fù)制——這已經(jīng)足以阻止對外發(fā)布MusicLM了。

此外，還有批評者質(zhì)疑，在受版權(quán)保護的音樂素材上訓(xùn)練AI模型到底合不合理。

不過團隊在論文中介紹了下一步動向，主要關(guān)注歌詞生成、改善提示文本準(zhǔn)確性以及提高生成質(zhì)量。

復(fù)雜音樂結(jié)構(gòu)的建模也將成為團隊的重點關(guān)注方向之一。

音頻生成AI

這個研究的背后團隊，是谷歌研究院。

共同一作Timo I. Denk，是谷歌瑞士的軟件工程師，每天的工作就是利用ML進(jìn)行音樂理解。

在這里多說兩句，MusicLM的論文中，研究團隊提到，MusicLM在質(zhì)量和提示依從性方面都優(yōu)于以前的系統(tǒng)。

“以前的系統(tǒng)”包括哪些？

一個是Mubert，已在Github開源API，是一個text-to-music的AI，系列產(chǎn)品有根據(jù)既有標(biāo)簽生成音樂的Mubert Render、聽歌軟件Mubert Play等。

還有Riffusion，它建立在AI繪圖的基礎(chǔ)上，但將其應(yīng)用于聲音。

換句話說，Riffusion的工作原理是首先構(gòu)建一個索引的頻譜圖集合，上面標(biāo)記代表頻譜圖中捕獲的音樂風(fēng)格的關(guān)鍵字。

在頻譜圖主體上訓(xùn)練時，Riffusion就用Stable Diffusion的同一個方法——干預(yù)噪音，來獲得與文本提示匹配的聲波圖像。

還有針對音樂制作人和音樂家的 AI 音頻生成工具Dance Diffusion，OpenAI推出的可自動生成音樂的ML框架Jukebox……

要咱說，別成天盯著ChatGPT了，AIGC下一個風(fēng)口萬一是音樂生成呢？

參考鏈接：
[1]https://google-research.github.io/seanet/musiclm/examples/
[2]https://arxiv.org/pdf/2301.11325.pdf
[3]https://techcrunch.com/2023/01/27/google-created-an-ai-that-can-generate-music-from-text-descriptions-but-wont-release-it/

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

谷歌音頻生成

白交

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

谷歌AI練習(xí)生寫了首歌，網(wǎng)友聽完心率都低了

還可以5分鐘即興創(chuàng)作

背后生成模型MusicLM

音頻生成AI

相關(guān)閱讀

谷歌25%新代碼由AI生成，會Prompt工程的程序員更吃香了

谷歌最強開源大模型亮相！Gemini技術(shù)下放，筆記本就能跑，可商用

突發(fā)！谷歌發(fā)布史上最強大模型Gemini，打爆GPT-4

谷歌實現(xiàn)量子計算糾錯重大突破！成果登上Nature，號稱第二大里程碑

谷歌裁員細(xì)節(jié)曝光：開源主管被裁，61歲程序員在線求職，有人60天內(nèi)找不到工作將被遣返

模型參數(shù)太多怎么辦？用谷歌高效訓(xùn)練庫GPipe啊

熱門文章

谷歌版小鋼炮開源！0.27B大模型，4個注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

百度AICA第9期開課：18大行業(yè)96位首席AI架構(gòu)師齊探AI產(chǎn)業(yè)落地

國家級AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬元獎金池+全場景賽道，沖線團隊速來

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強29%

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

谷歌AI練習(xí)生寫了首歌，網(wǎng)友聽完心率都低了

還可以5分鐘即興創(chuàng)作

背后生成模型MusicLM

音頻生成AI

相關(guān)閱讀

谷歌25%新代碼由AI生成，會Prompt工程的程序員更吃香了

谷歌最強開源大模型亮相！Gemini技術(shù)下放，筆記本就能跑，可商用

突發(fā)！谷歌發(fā)布史上最強大模型Gemini，打爆GPT-4

谷歌實現(xiàn)量子計算糾錯重大突破！成果登上Nature，號稱第二大里程碑

谷歌裁員細(xì)節(jié)曝光：開源主管被裁，61歲程序員在線求職，有人60天內(nèi)找不到工作將被遣返

模型參數(shù)太多怎么辦？用谷歌高效訓(xùn)練庫GPipe啊

熱門文章

谷歌版小鋼炮開源！0.27B大模型，4個注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

百度AICA第9期開課：18大行業(yè)96位首席AI架構(gòu)師齊探AI產(chǎn)業(yè)落地

國家級AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬元獎金池+全場景賽道，沖線團隊速來

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強29%

谷歌AI練習(xí)生寫了首歌，網(wǎng)友聽完心率都低了

谷歌25%新代碼由AI生成，會Prompt工程的程序員更吃香了

谷歌最強開源大模型亮相！Gemini技術(shù)下放，筆記本就能跑，可商用

谷歌實現(xiàn)量子計算糾錯重大突破！成果登上Nature，號稱第二大里程碑

谷歌裁員細(xì)節(jié)曝光：開源主管被裁，61歲程序員在線求職，有人60天內(nèi)找不到工作將被遣返

谷歌版小鋼炮開源！0.27B大模型，4個注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

國家級AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬元獎金池+全場景賽道，沖線團隊速來

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強29%