CVPR‘24:與任務(wù)無關(guān)的多模態(tài)數(shù)據(jù)也能提升Transformer性能|港中文&騰訊
跨模態(tài)增益挖掘Transformer潛力
Yiyuan 投稿
量子位 | 公眾號 QbitAI
萬萬沒想到,與任務(wù)無直接關(guān)聯(lián)的多模態(tài)數(shù)據(jù)也能提升Transformer模型性能。
比如訓(xùn)練一個圖像分類模型,除了標(biāo)注好類別的圖像數(shù)據(jù)集,增加視頻、音頻、點云等模態(tài)數(shù)據(jù),也能顯著提升模型在圖像分類上的性能。
這樣一來,在AI訓(xùn)練階段就可以減少與特定任務(wù)直接相關(guān)的標(biāo)注數(shù)據(jù)需求,可以節(jié)省大量成本,或在數(shù)據(jù)有限的任務(wù)上提供新解決思路。
這個神奇的發(fā)現(xiàn)來自港中文MMLab和騰訊AI Lab的合作研究,相關(guān)論文已被CVPR 2024接收,引起廣泛關(guān)注。
從無關(guān)數(shù)據(jù)中學(xué)習(xí)有用知識
具體來說,團隊提出了一種稱為多模態(tài)通路(Multimodal Pathway)的新框架。
該框架允許Transformer模型在處理特定模態(tài)的數(shù)據(jù)時,同時利用其他模態(tài)中的無關(guān)數(shù)據(jù)進行訓(xùn)練,從而在不增加額外推理成本的前提下顯著提升模型性能。
多模態(tài)通路的核心技術(shù)是跨模態(tài)重參數(shù)化?(Cross-Modal Re-parameterization)*。
這一技術(shù)的創(chuàng)新之處在于,它通過結(jié)構(gòu)上的智能重組,使得模型能夠在保持原有計算成本的同時,增加從其他模態(tài)學(xué)習(xí)的能力。
對于已經(jīng)被廣泛運用到多模態(tài)特征提取的Vision Transformer,團隊關(guān)心的是這些神經(jīng)網(wǎng)絡(luò)中的主要線性層。
具體來說,這一技術(shù)在模型的每一個線性層中引入了輔助模態(tài)的權(quán)重,這些權(quán)重通過可學(xué)習(xí)的參數(shù)進行調(diào)節(jié),從而在不增加推理時間的情況下,實現(xiàn)模態(tài)間的知識遷移。
如圖所示,比如有不同模態(tài)的兩個線性層FC和FC’, 那么跨模態(tài)結(jié)構(gòu)重參數(shù)化就是要通過構(gòu)建一個運算完全等價的線性層來承載兩個模態(tài)的運算,在這里直接將來自不同模態(tài)的兩部分權(quán)重?(W和W’)做線性組合(W+λW’)來平衡兩個模態(tài)的權(quán)重對于目標(biāo)模態(tài)的貢獻。
實驗結(jié)果:跨模態(tài)增益挖掘Transformer潛力
在論文中,研究團隊詳細(xì)介紹了他們的實驗設(shè)計和結(jié)果。
在圖像識別、點云處理、視頻理解和音頻分析等多個任務(wù)上應(yīng)用了多模態(tài)通路技術(shù),觀察到多模態(tài)通路能夠在12種不同的模態(tài)相互幫助的關(guān)系中實現(xiàn)一致的性能提升。
例如,在ImageNet圖像識別任務(wù)中,結(jié)合了點云數(shù)據(jù)的多模態(tài)通路Transformer模型,比傳統(tǒng)的Transformer模型在識別準(zhǔn)確率上提高了0.7%。
與MAE預(yù)訓(xùn)練方法的各種改進相比,該方法無需高昂的計算成本來預(yù)訓(xùn)練1600 Epoch,而是直接在下游任務(wù)中微調(diào),就能顯著地提升模型性能。這充分展示了多模態(tài)學(xué)習(xí)在處理大規(guī)模復(fù)雜數(shù)據(jù)集時的強大潛力。
研究人員還發(fā)現(xiàn),跨模態(tài)知識遷移的效果不僅與模型參數(shù)規(guī)模有關(guān),還可能與層次表示(Hierarchical Representation)能力密切相關(guān)。也就是越擅長學(xué)習(xí)層次化的抽象表示的模型,遷移效果就越好。
更值得注意的是,該方法有效地證明了即使毫不相關(guān)的多模態(tài)數(shù)據(jù)之間,仍能存在著明顯的多模態(tài)增益效果,這充分說明我們現(xiàn)在對多模態(tài)學(xué)習(xí)的理解與認(rèn)知還有很大的提升空間。
總的來說,這項研究不僅能夠啟發(fā)多模態(tài)學(xué)習(xí)在學(xué)術(shù)領(lǐng)域的發(fā)展,也為工業(yè)界提供了新的思路。通過利用現(xiàn)有的海量數(shù)據(jù)資源,即使這些數(shù)據(jù)與當(dāng)前任務(wù)不直接相關(guān),也能夠為AI模型的訓(xùn)練帶來積極的影響。
這種方法為數(shù)據(jù)資源有限或難以標(biāo)注的領(lǐng)域提供了新的解決方案,特別是在自動駕駛、醫(yī)療影像分析、自然語言處理等技術(shù)要求極高的領(lǐng)域,多模態(tài)通路技術(shù)的應(yīng)用前景廣闊。
此外,這一研究還揭示了AI跨模態(tài)學(xué)習(xí)的新機制,推動了學(xué)界對于不同數(shù)據(jù)模態(tài)間交互和協(xié)同處理的深入理解。研究團隊表示,未來他們將探索將多模態(tài)通路技術(shù)應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和其他跨架構(gòu)的AI系統(tǒng),以進一步挖掘這一技術(shù)的潛力。
論文地址:https://arxiv.org/abs/2401.14405
項目網(wǎng)頁:https://ailab-cvc.github.io/M2PT/
開源代碼:https://github.com/AILab-CVC/M2PT
講解視頻:https://www.bilibili.com/video/BV1Sm41127eW/
- 多人有聲視頻一體化生成!用百度最新AI生成營銷視頻,現(xiàn)在1.4元/5秒2025-08-22
- 馬斯克一覺醒來,Space X在京開賣了2025-08-21
- 離譜!現(xiàn)在的Agent都卷成100個成團了?3分鐘并行干完5個復(fù)雜任務(wù),還能隨時改需求2025-08-18
- 國家級AI創(chuàng)新應(yīng)用賽事殺瘋了!超200萬元獎金池+全場景賽道,沖線團隊速來2025-08-15