国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

谷歌AI練習(xí)生寫了首歌，網(wǎng)友聽完心率都低了

白交 2023-01-28 13:44:09 來(lái)源：量子位

靠280000小時(shí)音樂(lè)訓(xùn)練數(shù)據(jù)

楊凈衡宇發(fā)自凹非寺

量子位 | 公眾號(hào) QbitAI

一段話整出一首歌，甚至是男女唱（跳）rap的那種。

谷歌最新模型MusicLM一經(jīng)推出就驚艷四座，不少網(wǎng)友驚呼：這是迄今聽到最好的譜曲。

它可以根據(jù)文本生成任何類型的音樂(lè)，不管是根據(jù)時(shí)間、地點(diǎn)、年代等各種因素來(lái)調(diào)節(jié)，還是給故事情節(jié)、世界名畫配樂(lè)、生成人聲r(shí)ap口哨，通通不在話下。

比如這幅《吶喊》（Scream）

在一段摘自百科的說(shuō)明提示下，它就能生成一段高契合度的音樂(lè)。

（蒙克在一次幻覺(jué)經(jīng)歷中感受到并聽到了整個(gè)自然界的尖叫聲，它的靈感來(lái)源于此，描繪了一個(gè)驚慌失措的生物，既像尸體又讓人聯(lián)想到精子或胎兒，其輪廓與血紅色天空的旋渦線條相呼應(yīng)。）

ViT（Vision Transformer）作者在聽過(guò)一段關(guān)鍵詞含“平靜舒緩”“長(zhǎng)笛和吉他”的生成音樂(lè)后，表示自己真的平靜下來(lái)。

也不免有同行表示，這對(duì)我來(lái)說(shuō)比ChatGPT更值得關(guān)注，谷歌幾乎解決了音樂(lè)生成的問(wèn)題。

畢竟MusicLM背靠280000小時(shí)音樂(lè)的訓(xùn)練數(shù)據(jù)庫(kù)，事實(shí)上從現(xiàn)釋出的Demo來(lái)看，MusicLM的能力還不止如此。

還可以5分鐘即興創(chuàng)作

可以看到，MusicLM最大的亮點(diǎn)莫過(guò)于就是根據(jù)豐富的文字描述來(lái)生成音樂(lè)，包括樂(lè)器、音樂(lè)風(fēng)格、適用場(chǎng)景、節(jié)奏音調(diào)、是否包括人聲（哼唱、口哨、合唱）等元素，以此來(lái)生成一段30秒的音樂(lè)。

即便說(shuō)的只是那種說(shuō)不清道不明的氛圍，“迷失在太空”、“輕松而悠閑”；又或者是直接用在一些實(shí)用場(chǎng)景上，比如“街機(jī)游戲配樂(lè)”、給繪畫配樂(lè)等。

除此之外，MusicLM具備長(zhǎng)段音樂(lè)創(chuàng)作、故事模式、調(diào)節(jié)旋律等方面的能力。

在長(zhǎng)段音樂(lè)方面，它能完成5分鐘即興創(chuàng)作，即便提示只有一個(gè)詞。

比如僅在Swing（搖擺）的提示下，聽著真就有種想馬上下班去跳舞的沖動(dòng)。（bushi）

而在故事模式中，不同的情標(biāo)記甚至可以精確到秒的生成，哪怕情境之間完全沒(méi)有任何聯(lián)系……

游戲中播放的歌曲（0到15秒）——河邊播放的冥想曲（15到20秒）——火(0:30-0:45)——煙花(0:45-0:60 )

更讓人驚艷到的是，它還有很強(qiáng)的實(shí)用性功能。

一方面，它可以將旋律的提示結(jié)合進(jìn)文本提示當(dāng)中去，這樣一來(lái)可以更精細(xì)地來(lái)調(diào)整音樂(lè)。有點(diǎn)改甲方爸爸需求那味了。

另一方面，它還能根據(jù)具體的樂(lè)器、地點(diǎn)、流派、年代、甚至是音樂(lè)家演奏水平等文本來(lái)生成。

背后生成模型MusicLM

但有一說(shuō)一，AI生成音樂(lè)模型不在少數(shù)，谷歌自己此前也推出有類似的模型AudioLM。

此番MusicLM究竟有何不同？

據(jù)研究團(tuán)隊(duì)介紹，貢獻(xiàn)主要有三個(gè)方面：

生成模型MusicLM。
把方法擴(kuò)展到其他條件信號(hào)，如根據(jù)文本提示合成的旋律，并生成5分鐘的demo。
發(fā)布了首個(gè)專門為文本-音樂(lè)生成任務(wù)評(píng)估數(shù)據(jù)集MusicCaps。

首先，MusicLM正是基于谷歌三個(gè)月前提出AudioLM模型的拓展。

AudioLM不需要轉(zhuǎn)錄或標(biāo)記，只需收聽音頻，AudioLM就能生成和提示風(fēng)格相符的連貫音樂(lè)，包括鋼琴音或人聲對(duì)話等復(fù)雜聲音。

而最新的MusicLM，就是利用了AudioLM的多階段自回歸建模作為生成條件，且以此為基礎(chǔ)進(jìn)行拓展，使其可以通過(guò)文本提示來(lái)生成和修改音樂(lè)。

它是一個(gè)分層的序列到序列（Sequence-to-Sequence）模型，可以通過(guò)文本描述，以24kHz的頻率生成音樂(lè)，并在幾分鐘內(nèi)保持這個(gè)頻率。

具體而言，研究團(tuán)隊(duì)使用了三個(gè)模型來(lái)用來(lái)預(yù)訓(xùn)練，包括自監(jiān)督音頻表征模型SoundStream，它可以以低比特率壓縮一般音頻，同時(shí)保持高重建質(zhì)量。

還有語(yǔ)義標(biāo)記模型w2vBERT，促進(jìn)連貫生成；音頻文本嵌入模型Mulan，它可以將音樂(lè)及其對(duì)應(yīng)的文本描述投射到嵌入空間（以消除在訓(xùn)練時(shí)對(duì)文本的不同需求），并允許純音頻語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練，以此來(lái)應(yīng)對(duì)訓(xùn)練數(shù)據(jù)有限的難題。

訓(xùn)練過(guò)程中，他們從純音頻訓(xùn)練集中提取MuLan音頻標(biāo)記、語(yǔ)義標(biāo)記和聲學(xué)標(biāo)記。

在語(yǔ)義建模階段，他們用MuLan音頻標(biāo)記作為條件來(lái)預(yù)測(cè)語(yǔ)義標(biāo)記。隨后在聲學(xué)建模階段，又基于MuLan音頻標(biāo)記和語(yǔ)義標(biāo)記來(lái)預(yù)測(cè)聲學(xué)標(biāo)記。

每個(gè)階段都被建模為一個(gè)序列-序列任務(wù)，均使用單獨(dú)解碼器Transformer。

在推理過(guò)程中，他們使用從文本提示中計(jì)算出的MuLan文本標(biāo)記作為調(diào)節(jié)信號(hào)，并使用SoundStream解碼器將生成的音頻標(biāo)記轉(zhuǎn)換成波形。

在280000個(gè)小時(shí)的訓(xùn)練后，MusicLM最終學(xué)會(huì)了保持24kHz的頻率生成音樂(lè)，哪怕用來(lái)生成音樂(lè)的文本非常繞口。

類似“迷人的爵士歌曲與令人難忘的薩克斯獨(dú)奏和獨(dú)奏歌手”或“柏林90年代低音和強(qiáng)烈的電子樂(lè)”之類的。

研究團(tuán)隊(duì)還引入了一個(gè)高質(zhì)量音樂(lè)數(shù)據(jù)集MusicCaps來(lái)解決任務(wù)缺乏評(píng)估數(shù)據(jù)的問(wèn)題。

MusicCaps由專業(yè)人士共建，涵蓋5500個(gè)音樂(lè)-文本對(duì)。研究團(tuán)隊(duì)公布了這個(gè)數(shù)據(jù)集，方便大伙進(jìn)一步的研究。

這么一套操作下來(lái)，通過(guò)定量指標(biāo)和人工評(píng)估，MusicLM在音頻質(zhì)量和文本契合度等方面都優(yōu)于此前的音樂(lè)生成AI。

不過(guò)，谷歌研究團(tuán)隊(duì)說(shuō)了：目前沒(méi)有對(duì)外發(fā)布MusicLM的計(jì)劃。

原因很簡(jiǎn)單，除了訓(xùn)練過(guò)程中難免出現(xiàn)的樣本質(zhì)量失真，最最關(guān)鍵的還有2點(diǎn)。

一來(lái)，盡管MusicLM在技術(shù)上可以生成合唱和聲等人聲，但是仔細(xì)聽來(lái)，生成音樂(lè)的歌詞，有的還勉勉強(qiáng)強(qiáng)聽得出是音樂(lè)，有的根本就是無(wú)人能聽懂的外星方言。

再者，研究團(tuán)隊(duì)發(fā)現(xiàn)系統(tǒng)生成的音樂(lè)中，約有1%直接從訓(xùn)練集的歌曲中復(fù)制——這已經(jīng)足以阻止對(duì)外發(fā)布MusicLM了。

此外，還有批評(píng)者質(zhì)疑，在受版權(quán)保護(hù)的音樂(lè)素材上訓(xùn)練AI模型到底合不合理。

不過(guò)團(tuán)隊(duì)在論文中介紹了下一步動(dòng)向，主要關(guān)注歌詞生成、改善提示文本準(zhǔn)確性以及提高生成質(zhì)量。

復(fù)雜音樂(lè)結(jié)構(gòu)的建模也將成為團(tuán)隊(duì)的重點(diǎn)關(guān)注方向之一。

音頻生成AI

這個(gè)研究的背后團(tuán)隊(duì)，是谷歌研究院。

共同一作Timo I. Denk，是谷歌瑞士的軟件工程師，每天的工作就是利用ML進(jìn)行音樂(lè)理解。

在這里多說(shuō)兩句，MusicLM的論文中，研究團(tuán)隊(duì)提到，MusicLM在質(zhì)量和提示依從性方面都優(yōu)于以前的系統(tǒng)。

“以前的系統(tǒng)”包括哪些？

一個(gè)是Mubert，已在Github開源API，是一個(gè)text-to-music的AI，系列產(chǎn)品有根據(jù)既有標(biāo)簽生成音樂(lè)的Mubert Render、聽歌軟件Mubert Play等。

還有Riffusion，它建立在AI繪圖的基礎(chǔ)上，但將其應(yīng)用于聲音。

換句話說(shuō)，Riffusion的工作原理是首先構(gòu)建一個(gè)索引的頻譜圖集合，上面標(biāo)記代表頻譜圖中捕獲的音樂(lè)風(fēng)格的關(guān)鍵字。

在頻譜圖主體上訓(xùn)練時(shí)，Riffusion就用Stable Diffusion的同一個(gè)方法——干預(yù)噪音，來(lái)獲得與文本提示匹配的聲波圖像。

還有針對(duì)音樂(lè)制作人和音樂(lè)家的 AI 音頻生成工具Dance Diffusion，OpenAI推出的可自動(dòng)生成音樂(lè)的ML框架Jukebox……

要咱說(shuō)，別成天盯著ChatGPT了，AIGC下一個(gè)風(fēng)口萬(wàn)一是音樂(lè)生成呢？

參考鏈接：
[1]https://google-research.github.io/seanet/musiclm/examples/
[2]https://arxiv.org/pdf/2301.11325.pdf
[3]https://techcrunch.com/2023/01/27/google-created-an-ai-that-can-generate-music-from-text-descriptions-but-wont-release-it/

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

谷歌音頻生成

白交

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

谷歌AI練習(xí)生寫了首歌，網(wǎng)友聽完心率都低了

還可以5分鐘即興創(chuàng)作

背后生成模型MusicLM

音頻生成AI

相關(guān)閱讀

谷歌發(fā)布顛覆性研究：不訓(xùn)練不調(diào)參，AI自動(dòng)構(gòu)建超強(qiáng)網(wǎng)絡(luò)，告別煉丹一大步

谷歌開源系模型第二代免費(fèi)開放！27B媲美Llama3 70B，單H100或TPU主機(jī)可跑

最炫黑科技還得谷歌！一副眼鏡告別學(xué)外語(yǔ)，一個(gè)地圖App在家沉浸式環(huán)球游

蘋果谷歌聯(lián)手打造美國(guó)”健康碼“，預(yù)計(jì)五月面世。

ChatGPT一槍打服谷歌AI人才！情人節(jié)組團(tuán)加盟OpenAI

清華校友立功！谷歌發(fā)布首個(gè)全科醫(yī)療大模型，14項(xiàng)任務(wù)SOTA

熱門文章

谷歌版小鋼炮開源！0.27B大模型，4個(gè)注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬(wàn)美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強(qiáng)29%

百度AICA第9期開課：18大行業(yè)96位首席AI架構(gòu)師齊探AI產(chǎn)業(yè)落地

吉利半年報(bào)喜人，但熱搜是高管為“背刺車主”道歉

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

谷歌AI練習(xí)生寫了首歌，網(wǎng)友聽完心率都低了

還可以5分鐘即興創(chuàng)作

背后生成模型MusicLM

音頻生成AI

相關(guān)閱讀

谷歌發(fā)布顛覆性研究：不訓(xùn)練不調(diào)參，AI自動(dòng)構(gòu)建超強(qiáng)網(wǎng)絡(luò)，告別煉丹一大步

谷歌開源系模型第二代免費(fèi)開放！27B媲美Llama3 70B，單H100或TPU主機(jī)可跑

最炫黑科技還得谷歌！一副眼鏡告別學(xué)外語(yǔ)，一個(gè)地圖App在家沉浸式環(huán)球游

蘋果谷歌聯(lián)手打造美國(guó)”健康碼“，預(yù)計(jì)五月面世。

ChatGPT一槍打服谷歌AI人才！情人節(jié)組團(tuán)加盟OpenAI

清華校友立功！谷歌發(fā)布首個(gè)全科醫(yī)療大模型，14項(xiàng)任務(wù)SOTA

熱門文章

谷歌版小鋼炮開源！0.27B大模型，4個(gè)注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬(wàn)美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強(qiáng)29%

百度AICA第9期開課：18大行業(yè)96位首席AI架構(gòu)師齊探AI產(chǎn)業(yè)落地

吉利半年報(bào)喜人，但熱搜是高管為“背刺車主”道歉

谷歌AI練習(xí)生寫了首歌，網(wǎng)友聽完心率都低了

谷歌發(fā)布顛覆性研究：不訓(xùn)練不調(diào)參，AI自動(dòng)構(gòu)建超強(qiáng)網(wǎng)絡(luò)，告別煉丹一大步

谷歌開源系模型第二代免費(fèi)開放！27B媲美Llama3 70B，單H100或TPU主機(jī)可跑

最炫黑科技還得谷歌！一副眼鏡告別學(xué)外語(yǔ)，一個(gè)地圖App在家沉浸式環(huán)球游

蘋果谷歌聯(lián)手打造美國(guó)”健康碼“，預(yù)計(jì)五月面世。

清華校友立功！谷歌發(fā)布首個(gè)全科醫(yī)療大模型，14項(xiàng)任務(wù)SOTA

谷歌版小鋼炮開源！0.27B大模型，4個(gè)注意力頭，專為終端而生

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強(qiáng)29%

吉利半年報(bào)喜人，但熱搜是高管為“背刺車主”道歉