国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

CVPR‘24：與任務(wù)無關(guān)的多模態(tài)數(shù)據(jù)也能提升Transformer性能｜港中文&騰訊

西風(fēng) 2024-05-04 11:39:59 來源：量子位

跨模態(tài)增益挖掘Transformer潛力

Yiyuan 投稿
量子位 | 公眾號 QbitAI

萬萬沒想到，與任務(wù)無直接關(guān)聯(lián)的多模態(tài)數(shù)據(jù)也能提升Transformer模型性能。

比如訓(xùn)練一個圖像分類模型，除了標(biāo)注好類別的圖像數(shù)據(jù)集，增加視頻、音頻、點云等模態(tài)數(shù)據(jù)，也能顯著提升模型在圖像分類上的性能。

這樣一來，在AI訓(xùn)練階段就可以減少與特定任務(wù)直接相關(guān)的標(biāo)注數(shù)據(jù)需求，可以節(jié)省大量成本，或在數(shù)據(jù)有限的任務(wù)上提供新解決思路。

這個神奇的發(fā)現(xiàn)來自港中文MMLab和騰訊AI Lab的合作研究，相關(guān)論文已被CVPR 2024接收，引起廣泛關(guān)注。

從無關(guān)數(shù)據(jù)中學(xué)習(xí)有用知識

具體來說，團隊提出了一種稱為多模態(tài)通路（Multimodal Pathway）的新框架。

該框架允許Transformer模型在處理特定模態(tài)的數(shù)據(jù)時，同時利用其他模態(tài)中的無關(guān)數(shù)據(jù)進行訓(xùn)練，從而在不增加額外推理成本的前提下顯著提升模型性能。

多模態(tài)通路的核心技術(shù)是跨模態(tài)重參數(shù)化?（Cross-Modal Re-parameterization）*。

這一技術(shù)的創(chuàng)新之處在于，它通過結(jié)構(gòu)上的智能重組，使得模型能夠在保持原有計算成本的同時，增加從其他模態(tài)學(xué)習(xí)的能力。

對于已經(jīng)被廣泛運用到多模態(tài)特征提取的Vision Transformer，團隊關(guān)心的是這些神經(jīng)網(wǎng)絡(luò)中的主要線性層。

具體來說，這一技術(shù)在模型的每一個線性層中引入了輔助模態(tài)的權(quán)重，這些權(quán)重通過可學(xué)習(xí)的參數(shù)進行調(diào)節(jié)，從而在不增加推理時間的情況下，實現(xiàn)模態(tài)間的知識遷移。

如圖所示，比如有不同模態(tài)的兩個線性層FC和FC’，那么跨模態(tài)結(jié)構(gòu)重參數(shù)化就是要通過構(gòu)建一個運算完全等價的線性層來承載兩個模態(tài)的運算，在這里直接將來自不同模態(tài)的兩部分權(quán)重?（W和W’）做線性組合（W+λW’）來平衡兩個模態(tài)的權(quán)重對于目標(biāo)模態(tài)的貢獻。

實驗結(jié)果：跨模態(tài)增益挖掘Transformer潛力

在論文中，研究團隊詳細(xì)介紹了他們的實驗設(shè)計和結(jié)果。

在圖像識別、點云處理、視頻理解和音頻分析等多個任務(wù)上應(yīng)用了多模態(tài)通路技術(shù)，觀察到多模態(tài)通路能夠在12種不同的模態(tài)相互幫助的關(guān)系中實現(xiàn)一致的性能提升。

例如，在ImageNet圖像識別任務(wù)中，結(jié)合了點云數(shù)據(jù)的多模態(tài)通路Transformer模型，比傳統(tǒng)的Transformer模型在識別準(zhǔn)確率上提高了0.7%。

與MAE預(yù)訓(xùn)練方法的各種改進相比，該方法無需高昂的計算成本來預(yù)訓(xùn)練1600 Epoch，而是直接在下游任務(wù)中微調(diào)，就能顯著地提升模型性能。這充分展示了多模態(tài)學(xué)習(xí)在處理大規(guī)模復(fù)雜數(shù)據(jù)集時的強大潛力。

研究人員還發(fā)現(xiàn)，跨模態(tài)知識遷移的效果不僅與模型參數(shù)規(guī)模有關(guān)，還可能與層次表示（Hierarchical Representation）能力密切相關(guān)。也就是越擅長學(xué)習(xí)層次化的抽象表示的模型，遷移效果就越好。

更值得注意的是，該方法有效地證明了即使毫不相關(guān)的多模態(tài)數(shù)據(jù)之間，仍能存在著明顯的多模態(tài)增益效果，這充分說明我們現(xiàn)在對多模態(tài)學(xué)習(xí)的理解與認(rèn)知還有很大的提升空間。

總的來說，這項研究不僅能夠啟發(fā)多模態(tài)學(xué)習(xí)在學(xué)術(shù)領(lǐng)域的發(fā)展，也為工業(yè)界提供了新的思路。通過利用現(xiàn)有的海量數(shù)據(jù)資源，即使這些數(shù)據(jù)與當(dāng)前任務(wù)不直接相關(guān)，也能夠為AI模型的訓(xùn)練帶來積極的影響。

這種方法為數(shù)據(jù)資源有限或難以標(biāo)注的領(lǐng)域提供了新的解決方案，特別是在自動駕駛、醫(yī)療影像分析、自然語言處理等技術(shù)要求極高的領(lǐng)域，多模態(tài)通路技術(shù)的應(yīng)用前景廣闊。

此外，這一研究還揭示了AI跨模態(tài)學(xué)習(xí)的新機制，推動了學(xué)界對于不同數(shù)據(jù)模態(tài)間交互和協(xié)同處理的深入理解。研究團隊表示，未來他們將探索將多模態(tài)通路技術(shù)應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)（CNN）和其他跨架構(gòu)的AI系統(tǒng)，以進一步挖掘這一技術(shù)的潛力。

論文地址：https://arxiv.org/abs/2401.14405
項目網(wǎng)頁：https://ailab-cvc.github.io/M2PT/
開源代碼：https://github.com/AILab-CVC/M2PT
講解視頻：https://www.bilibili.com/video/BV1Sm41127eW/

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

CVPR

西風(fēng)

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

CVPR‘24：與任務(wù)無關(guān)的多模態(tài)數(shù)據(jù)也能提升Transformer性能｜港中文&騰訊

從無關(guān)數(shù)據(jù)中學(xué)習(xí)有用知識

實驗結(jié)果：跨模態(tài)增益挖掘Transformer潛力

相關(guān)閱讀

十年來最難的一屆CVPR：接收率22%，百度入選19篇，曠視16篇

CVPR 2020錄用率十年最低，商湯官宣62篇入選

錄取率22%！投稿ID破萬的CVPR 2020接收論文公布

視頻PS神器！人物隱身、水印去除，簡直像重拍了一遍，這項登上CVPR的研究剛剛開源了

何愷明上榜CVPR 2021獲獎名單，4篇「最佳」是華人一作

跟郎朗媳婦有得一拼的AI，只看彈琴動作，完美復(fù)現(xiàn)原聲 | CVPR 2020

熱門文章

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

CVPR‘24：與任務(wù)無關(guān)的多模態(tài)數(shù)據(jù)也能提升Transformer性能｜港中文&騰訊

從無關(guān)數(shù)據(jù)中學(xué)習(xí)有用知識

實驗結(jié)果：跨模態(tài)增益挖掘Transformer潛力

相關(guān)閱讀

十年來最難的一屆CVPR：接收率22%，百度入選19篇，曠視16篇

CVPR 2020錄用率十年最低，商湯官宣62篇入選

錄取率22%！投稿ID破萬的CVPR 2020接收論文公布

視頻PS神器！人物隱身、水印去除，簡直像重拍了一遍，這項登上CVPR的研究剛剛開源了

何愷明上榜CVPR 2021獲獎名單，4篇「最佳」是華人一作

跟郎朗媳婦有得一拼的AI，只看彈琴動作，完美復(fù)現(xiàn)原聲 | CVPR 2020

熱門文章

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度

十年來最難的一屆CVPR：接收率22%，百度入選19篇，曠視16篇

CVPR 2020錄用率十年最低，商湯官宣62篇入選

視頻PS神器！人物隱身、水印去除，簡直像重拍了一遍，這項登上CVPR的研究剛剛開源了

跟郎朗媳婦有得一拼的AI，只看彈琴動作，完美復(fù)現(xiàn)原聲 | CVPR 2020

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應(yīng)：下次不遙控了

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行