跟郎朗媳婦有得一拼的AI,只看彈琴動(dòng)作,完美復(fù)現(xiàn)原聲 | CVPR 2020
華人小哥一作
金磊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
見(jiàn)識(shí)過(guò)「聽(tīng)歌識(shí)曲」,體驗(yàn)過(guò)看彈奏動(dòng)作識(shí)曲嗎?
就像最近的一檔綜藝節(jié)目中,郎朗比劃了幾個(gè)彈鋼琴的動(dòng)作,他媳婦(吉娜·愛(ài)麗絲)秒答:《柴可夫斯基第一協(xié)奏曲》!
來(lái)自華盛頓大學(xué)的研究團(tuán)隊(duì)提出了一種新方法Audeo,就解鎖如此神奇的操作——僅僅根據(jù)鋼琴師彈奏時(shí)的動(dòng)作,就能直接復(fù)現(xiàn)原聲音樂(lè)。
先來(lái)體驗(yàn)下這種神奇的感覺(jué)。
下面便是鋼琴師演奏時(shí)的動(dòng)圖,我們能看到的,僅僅就是手指在鋼琴鍵盤上的變換。
然后,你知道這是哪首曲子嗎?
大部分人(或許郎朗級(jí)別的大神們可以)應(yīng)該是猜不到的。
但AI可以,下面便是這項(xiàng)技術(shù)復(fù)現(xiàn)的原聲音樂(lè)。
那么,這般神奇的操作是怎么實(shí)現(xiàn)的呢?
三步實(shí)現(xiàn)「看動(dòng)作識(shí)音樂(lè)」
簡(jiǎn)單來(lái)說(shuō),Audeo方法主要包括三大步驟,分別是:
- 鋼琴按鍵檢測(cè)
- 生成樂(lè)譜內(nèi)容
- 合成音樂(lè)
鋼琴按鍵檢測(cè)
這個(gè)步驟可以理解為一個(gè)多標(biāo)簽(multi一label )分類問(wèn)題。
輸入是彈鋼琴視頻中5個(gè)連續(xù)的幀,將它們輸入到Video2Roll Net中,經(jīng)過(guò)ResNet18、特征變換、特征細(xì)化(refinement)和相關(guān)學(xué)習(xí)的處理,最后輸出中間幀的按鍵預(yù)測(cè)。
值得注意的是,在這個(gè)步驟中,研究人員沒(méi)有直接使用ResNet18,而是在此基礎(chǔ)上做了算法改良,提出了Video2Roll Net。
這樣做的原因很簡(jiǎn)單,就是ResNet18檢測(cè)到的「精度」不夠細(xì)致,下面2張熱力圖的對(duì)比,便一目了然地展示了2種方法的效果。
生成樂(lè)譜內(nèi)容
在第二個(gè)步驟中,就需要將 Roll 轉(zhuǎn)換為 Midi(樂(lè)器數(shù)字接口),以便合成音樂(lè)。
但在上步生成出來(lái)的 roll ,沒(méi)辦法直接轉(zhuǎn)換成 Midi,一個(gè)至關(guān)重要的原因就是—— Roll 不包含時(shí)間信息。
此外,由于 Midi 比較依賴音頻流,所以經(jīng)常出現(xiàn)的一個(gè)現(xiàn)象就是:演奏者按一個(gè)鋼琴鍵的時(shí)間較長(zhǎng)時(shí),相應(yīng)頻率的幅度會(huì)逐漸衰減為零,也就是在 Midi 中會(huì)被標(biāo)記為零。
像下面這張圖中顯示的那樣,就會(huì)造成不匹配的現(xiàn)象。
并且,研究人員表示:
這種不匹配的現(xiàn)象,是經(jīng)常發(fā)生的。
于是,研究人員便提出了一個(gè)叫 Roll2Midi Net的方法解決了這個(gè)問(wèn)題。
主要是在二者之間加入了一個(gè)生成對(duì)抗網(wǎng)絡(luò)(GAN),來(lái)調(diào)節(jié)并解決上述問(wèn)題。
合成音樂(lè)
最后一步,就是根據(jù)調(diào)節(jié)好的 Midi 來(lái)生成音樂(lè),主要過(guò)程如下圖所示。
將 Midi 作為輸入,經(jīng)過(guò)一個(gè)上采樣,而后可以選擇通過(guò)「Midi 合成器軟件」,也可以選擇使用「PerfNet+Unet+GriffinLim」的組合方式來(lái)生成音樂(lè)。
至于 Audeo 方法與其它方法的定量比較,主要集中在第二個(gè)核心步驟。
可以明顯看到,研究人員在第二步驟中提出來(lái)的 Roll2Midi Net方法,在各項(xiàng)評(píng)測(cè)指標(biāo)中,都具有一定優(yōu)勢(shì)。
合成音樂(lè)還可以轉(zhuǎn)換成別的樂(lè)器
當(dāng)然,Audeo 除了精準(zhǔn)復(fù)現(xiàn)視頻中的鋼琴音樂(lè)外,還有一個(gè)更有意思的玩法。
它可以將鋼琴原聲,轉(zhuǎn)換成其他樂(lè)器的聲音。
例如,可以將鋼琴音樂(lè)轉(zhuǎn)換成吉他的聲音。
還可以將鋼琴音樂(lè)轉(zhuǎn)換成日本十三弦古箏的聲音。
這個(gè)有趣的玩法,主要得益于「合成音樂(lè)」這個(gè)步驟,選擇的方法不同,得到的結(jié)果便不同。
研究團(tuán)隊(duì)
這項(xiàng)研究由華盛頓大學(xué)的三位研究人員共同完成,研究還入圍了本屆CVPR。
△從左至右:Kun Su、Xiulong Liu和Eli Shlizerman
論文一作是Kun Su,本科就讀于美國(guó)紐約州倫斯勒理工大學(xué)(RPI),目前在華盛頓大學(xué)攻讀電子與計(jì)算機(jī)工程系攻讀碩士。
△Kun Su
研究的另一位作者是Xiulong Liu,本科在上交大就讀,碩士畢業(yè)于華盛頓大學(xué),目前在OneClick.ai 擔(dān)任數(shù)據(jù)科學(xué)家。
△Xiulong Liu
論文最后一位作者是Eli Shlizerman,華盛頓大學(xué)應(yīng)用數(shù)學(xué)及電子與計(jì)算機(jī)工程助理教授。
目前專攻生物神經(jīng)網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)的基本特性,通過(guò)結(jié)合時(shí)空數(shù)據(jù)分析、機(jī)器學(xué)習(xí)和動(dòng)力系統(tǒng)理論的方法將這兩個(gè)系統(tǒng)聯(lián)系起來(lái)。
△Eli Shlizerman
那么問(wèn)題來(lái)了,如果以郎朗的手速?gòu)椬噤撉伲@個(gè)AI的效果還會(huì)如此驚艷嗎?
傳送門:
論文地址:
https://arxiv.org/abs/2006.14348
- 商湯林達(dá)華萬(wàn)字長(zhǎng)文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計(jì),讓70年經(jīng)驗(yàn)“活”起來(lái)2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08