国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

現(xiàn)在，用音頻也能指揮GAN生成圖像了

豐色 2021-11-01 16:23:06 來(lái)源：量子位

一種新音頻表示方法+VQGAN-CLIP

CLIP大家都不陌生吧？

由OpenAI于今年1月份推出，能夠?qū)崿F(xiàn)文本描述與圖片的精準(zhǔn)匹配。

現(xiàn)在，有人“靈機(jī)一動(dòng)”，從CLIP中學(xué)習(xí)了一種音頻表示方法。

用這個(gè)方法搭配VQGAN-CLIP，就能實(shí)現(xiàn)聲音到圖像的轉(zhuǎn)變！

比如給它聽(tīng)4種不同的青蛙叫，它就能生成4種青蛙的照片：

給它聽(tīng)不同的教堂鈴聲，就能生成下面這樣的圖像：

嗯，畫風(fēng)有點(diǎn)詭異，仿佛看到了還未被完全馴服的AI的內(nèi)心世界……

不過(guò)這是不是還挺有意思？

那同樣都使用VQGAN-CLIP，到底是用文字生成還是用這種音頻表示的生成效果更好呢？

這也有一張對(duì)比圖片：

第一行是VQGAN-CLIP根據(jù)文字生成的圖片，第二行是根據(jù)音頻。從左到右分別為：街頭音樂(lè)、狗叫、小孩玩耍、槍擊聲。

你覺(jué)得哪個(gè)更像？

目前，關(guān)于這個(gè)音頻表示方法的研究已被國(guó)際聲學(xué)、語(yǔ)音與信號(hào)處理頂會(huì)ICASSP接收。

所以，一個(gè)音頻是怎么和圖像連接起來(lái)的呢？

從CLIP中提取音頻表示方法

下面就來(lái)看看這個(gè)音頻表示方法有何特殊之處。

方法名叫Wav2CLIP，從下圖我們可以看出它和CLIP的模型架構(gòu)非常像。

作為視聽(tīng)（audio-visual）對(duì)應(yīng)模型，Wav2CLIP也有兩個(gè)編碼器，一個(gè)是凍結(jié)圖像編碼器（Frozen Image Encoder），一個(gè)是音頻編碼器，分別從視頻中提取圖像和音頻數(shù)據(jù)進(jìn)行訓(xùn)練。

凍結(jié)圖像編碼器通過(guò)凍結(jié)CLIP的圖像編碼器獲得，也就是將CLIP視覺(jué)模型的圖結(jié)構(gòu)和權(quán)重固化到一起后直接加載運(yùn)行。

音頻編碼器的預(yù)訓(xùn)練通過(guò)提取視頻中CLIP圖像的embedding完成，這也是Wav2CLIP的前置（pretext）任務(wù)。

按照CLIP論文的原始方法，研究人員采用對(duì)比損失（contrastive loss）進(jìn)行特征提取，并添加多層感知器（MLP）作為投影層。

交叉投影的損失函數(shù)定義如下：

△ f/g：投影函數(shù)，L：對(duì)比損失函數(shù)

添加MLP層的好處有兩個(gè)：

一是有助于穩(wěn)定提取過(guò)程；

二是能夠加強(qiáng)多模態(tài)的一致性，因?yàn)槟Ｐ蛯W(xué)習(xí)到的音頻embedding能通過(guò)這個(gè)投影層恢復(fù)CLIP圖像的embedding。

總的來(lái)說(shuō)，Wav2CLIP的訓(xùn)練數(shù)據(jù)為一段視頻，利用CLIP的圖像編碼器（freeze操作）對(duì)音頻圖片和音頻進(jìn)行特征提取，就可以生成“明白”自己應(yīng)該對(duì)應(yīng)什么圖片的音頻表示。

所以反過(guò)來(lái)也可以根據(jù)這種表示推出圖片，就像我們?cè)陂_(kāi)頭看到的“青蛙”和“教堂鈴聲”一樣。

具體方法就是通過(guò)把引導(dǎo)VQGAN在潛空間中查找與文本提示匹配的圖像的CLIP embeddings，替換成Wav2CLIP音頻embeddings而完成。

由于Wav2CLIP不同于以往的視聽(tīng)對(duì)應(yīng)模型，它不需要將視覺(jué)模型與聽(tīng)覺(jué)模型結(jié)合起來(lái)學(xué)習(xí)，所以訓(xùn)練方法也就非常輕量級(jí)。

再加上Wav2CLIP的embeddings源于CLIP，這意味著它們是與文字對(duì)齊的。

所以經(jīng)過(guò)額外層的訓(xùn)練，Wav2CLIP也能執(zhí)行零樣本音頻分類、音頻字幕和跨模態(tài)檢索（根據(jù)文本搜索音頻）等下游任務(wù)。

下游任務(wù)性能比較

在實(shí)驗(yàn)評(píng)估中，Wav2CLIP采用ResNet-18的架構(gòu)作為音頻編碼器。

首先來(lái)看Wav2CLIP在分類和檢索任務(wù)上的性能。

與非SOTA的音頻表示模型相比，Wav2CLIP在幾乎所有分類和檢索任務(wù)中的性能都比YamNet和OpenL3略強(qiáng)，不是最強(qiáng)的地方，表現(xiàn)和第一名差別也不大。

具體在檢索任務(wù)上，對(duì)于音頻檢索（AR），可以看到Wav2CLIP作為幀級(jí)特征提取器的性能很有競(jìng)爭(zhēng)力。

對(duì)于跨模態(tài)檢索（CMR）任務(wù)，Wav2CLIP達(dá)到了0.05 MRR，這意味著它能夠從前20個(gè)音頻中檢索出正確結(jié)果，比OpenL3好不少。

與SOTA模型相比，仍有改進(jìn)的余地。

不過(guò)也情有可原，因?yàn)閷?duì)于大多數(shù)SOTA模型來(lái)說(shuō)，編碼器在每個(gè)任務(wù)上都經(jīng)過(guò)專門的訓(xùn)練或微調(diào)，而Wav2CLIP只用凍結(jié)特征提取器，并且只訓(xùn)練簡(jiǎn)單的MLP分類器輸出答案，也就是所有任務(wù)都采用的是同一個(gè)音頻編碼器。

再看在音頻字幕任務(wù)中與基線比較的結(jié)果：

所有指標(biāo)都略優(yōu)于基線。

不過(guò)作者表示，這不是一個(gè)公平的比較，因?yàn)樗麄兊木幋a器和解碼器架構(gòu)都不同，但他們想表明的是：Wav2CLIP很容易適應(yīng)不同的任務(wù)，并且仍然具有合理的性能。

最后再來(lái)看一下Wav2CLIP與OpenL3和YamNet使用不同百分比的訓(xùn)練樣本進(jìn)行VGGSound音頻分類的結(jié)果（VGGSound包含309種10s的YouTube視頻）。

可以發(fā)現(xiàn)Wav2CLIP碾壓OpenL3，和YamNet不相上下——使用10%的訓(xùn)練數(shù)據(jù)就能達(dá)到相同性能。

不過(guò)Wav2CLIP和YamNet預(yù)訓(xùn)練的前置任務(wù)非常不同，YamNet需要大量的標(biāo)記數(shù)據(jù)，Wav2CLIP在完全沒(méi)有人工注釋的情況下完成預(yù)訓(xùn)練，所以Wav2CLIP更易于擴(kuò)展。

總的來(lái)說(shuō)，這種音頻表示方法進(jìn)一步訓(xùn)練的模型在上面這3種任務(wù)上都能表現(xiàn)出與同類相媲美或更高的性能。

在未來(lái)工作方面，研究人員表示將在Wav2CLIP上嘗試各種專門為多模態(tài)數(shù)據(jù)設(shè)計(jì)的損失函數(shù)和投影層，并探索從共享embedding空間生成音頻，以實(shí)現(xiàn)從文本或圖像到音頻的跨模態(tài)生成。

論文地址：

https://arxiv.org/abs/2110.11499

開(kāi)源代碼：

https://github.com/descriptinc/lyrebird-Wav2CLIP

更多音頻轉(zhuǎn)圖像的demo欣賞：

https://descriptinc.github.io/lyrebird-wav2clip

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

GAN 音頻表示

豐色

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

現(xiàn)在，用音頻也能指揮GAN生成圖像了

從CLIP中提取音頻表示方法

下游任務(wù)性能比較

相關(guān)閱讀

英偉達(dá)推出GAN“超級(jí)縫合體”，輸入文字草圖語(yǔ)義圖都能生成逼真照片

強(qiáng)烈安利試試這個(gè)！效果爆炸的漫畫變身AI，火到服務(wù)器幾度擠爆

單張圖像就可以訓(xùn)練GAN！Adobe改良圖像生成方法 | 已開(kāi)源

GAN不只會(huì)造假：捕獲數(shù)據(jù)中額外顯著特征，提高表征學(xué)習(xí)可解釋性，效果超越InfoGAN | IJCAI 2020

這個(gè)AI讓馬斯克頭禿，還能幫他設(shè)計(jì)特斯拉

簡(jiǎn)單幾筆素描就能“復(fù)原”真實(shí)人臉，這是沈向洋高徒出品的CSAGAN

熱門文章

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了！首創(chuàng)層次化評(píng)價(jià)體系，告別“誰(shuí)的demo更吸睛”主觀評(píng)估

宇樹(shù)機(jī)器人“撞人逃逸”火到國(guó)外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬(wàn)維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機(jī)插詞匯就行

賣酒的茅臺(tái)要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

現(xiàn)在，用音頻也能指揮GAN生成圖像了

從CLIP中提取音頻表示方法

下游任務(wù)性能比較

相關(guān)閱讀

英偉達(dá)推出GAN“超級(jí)縫合體”，輸入文字草圖語(yǔ)義圖都能生成逼真照片

強(qiáng)烈安利試試這個(gè)！效果爆炸的漫畫變身AI，火到服務(wù)器幾度擠爆

單張圖像就可以訓(xùn)練GAN！Adobe改良圖像生成方法 | 已開(kāi)源

GAN不只會(huì)造假：捕獲數(shù)據(jù)中額外顯著特征，提高表征學(xué)習(xí)可解釋性，效果超越InfoGAN | IJCAI 2020

這個(gè)AI讓馬斯克頭禿，還能幫他設(shè)計(jì)特斯拉

簡(jiǎn)單幾筆素描就能“復(fù)原”真實(shí)人臉，這是沈向洋高徒出品的CSAGAN

熱門文章

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了！首創(chuàng)層次化評(píng)價(jià)體系，告別“誰(shuí)的demo更吸睛”主觀評(píng)估

宇樹(shù)機(jī)器人“撞人逃逸”火到國(guó)外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬(wàn)維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機(jī)插詞匯就行

賣酒的茅臺(tái)要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度

強(qiáng)烈安利試試這個(gè)！效果爆炸的漫畫變身AI，火到服務(wù)器幾度擠爆

單張圖像就可以訓(xùn)練GAN！Adobe改良圖像生成方法 | 已開(kāi)源

GAN不只會(huì)造假：捕獲數(shù)據(jù)中額外顯著特征，提高表征學(xué)習(xí)可解釋性，效果超越InfoGAN | IJCAI 2020

簡(jiǎn)單幾筆素描就能“復(fù)原”真實(shí)人臉，這是沈向洋高徒出品的CSAGAN

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了！首創(chuàng)層次化評(píng)價(jià)體系，告別“誰(shuí)的demo更吸睛”主觀評(píng)估

宇樹(shù)機(jī)器人“撞人逃逸”火到國(guó)外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬(wàn)維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機(jī)插詞匯就行

賣酒的茅臺(tái)要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度