北大王選所:讓多模態(tài)大模型更懂人類(lèi)在做什么|ECCV 2024
靠提示詞就行
只用提示詞,多模態(tài)大模型就能更懂場(chǎng)景中的人物關(guān)系了。
北京大學(xué)最新提出多模態(tài)提示學(xué)習(xí)(Conditional Multi-Modal Prompt, CMMP)方法,利用提示詞工程技術(shù)教會(huì)多模態(tài)大模型理解區(qū)域級(jí)的人物交互關(guān)系。

在這個(gè)過(guò)程中,最難的部分在于教會(huì)模型識(shí)別未見(jiàn)過(guò)的人物交互類(lèi)型。
要知道,大多數(shù)現(xiàn)有研究都集中在封閉環(huán)境,一旦變成更接近現(xiàn)實(shí)的開(kāi)放環(huán)境,模型就懵逼了!
比如下圖,先前的檢測(cè)器在平衡已見(jiàn)和未見(jiàn)類(lèi)別時(shí)遇到了困難,導(dǎo)致調(diào)和平均值較低,并且在未見(jiàn)類(lèi)別上的表現(xiàn)較差。
相比之下,CMMP方法有效解決了這一平衡問(wèn)題,大幅提升了性能,并為未見(jiàn)類(lèi)別建立了新的最佳性能。

至于CMMP方法如何解決未見(jiàn)類(lèi)別,一句話(huà):
在特征提取過(guò)程中使用視覺(jué)空間線(xiàn)索,幫助識(shí)別未見(jiàn)的人物-物體交互概念,并通過(guò)條件提示學(xué)習(xí)提高對(duì)未見(jiàn)類(lèi)別的泛化能力。

總之,CMMP方法提供了一種新的范式,可以微調(diào)多模態(tài)大模型,使其具備泛化的區(qū)域級(jí)人物交互關(guān)系檢測(cè)能力。
以上研究來(lái)自北大王選計(jì)算機(jī)技術(shù)研究所,相關(guān)論文已被頂會(huì)ECCV 2024接收。
零樣本人物交互檢測(cè)新框架
團(tuán)隊(duì)提出了一種使用CMMP進(jìn)行零樣本HOI(Human-Object Interaction)檢測(cè)的新框架。

具體來(lái)說(shuō),CMMP將零樣本人物交互檢測(cè)分為兩個(gè)子任務(wù):
- 交互性感知的視覺(jué)特征提取
- 可泛化的交互分類(lèi)
然后為每個(gè)子任務(wù)分別提出了解耦的視覺(jué)和文本提示,以消除它們之間的依賴(lài)性并緩解錯(cuò)誤傳播。
條件視覺(jué)提示(Pv)用于將空間和交互性感知的知識(shí)注入圖像編碼器,并通過(guò)實(shí)例級(jí)視覺(jué)先驗(yàn)(Cins)和交互的全局空間模式(Cgsp)進(jìn)行約束。條件語(yǔ)言提示(PL)通過(guò)正則化損失受人設(shè)計(jì)的提示(CL)的約束。
交互性感知的視覺(jué)特征提取
團(tuán)隊(duì)采用的多模態(tài)模型的圖像編碼器最初通過(guò)對(duì)大規(guī)模圖像-文本對(duì)進(jìn)行對(duì)比學(xué)習(xí)預(yù)訓(xùn)練(CLIP),其能力可能僅限于理解圖像級(jí)的一階語(yǔ)義。
為了使圖像編碼器能夠區(qū)分圖像中所有的人物交互性,團(tuán)隊(duì)提出將不同粒度的先驗(yàn)知識(shí)整合到條件視覺(jué)提示中,使其理解為人物交互關(guān)系檢測(cè)任務(wù)定制的區(qū)域級(jí)二階語(yǔ)義。
具體來(lái)說(shuō),研究人員將實(shí)例級(jí)信息作為先驗(yàn)知識(shí)融入條件視覺(jué)提示中。
給定輸入圖像,首先使用預(yù)訓(xùn)練的物體檢測(cè)器獲取所有實(shí)例級(jí)先驗(yàn)知識(shí),包括邊界框、置信度分?jǐn)?shù)和檢測(cè)到的實(shí)例的語(yǔ)義編碼。
此外,為了鼓勵(lì)每個(gè)實(shí)例意識(shí)到其潛在的交互對(duì)象,團(tuán)隊(duì)將訓(xùn)練集中交互的全局空間模式(Global Spatial Pattern)與實(shí)例級(jí)先驗(yàn)知識(shí)(Instance-level Visual Prior)結(jié)合。
具體來(lái)說(shuō),對(duì)于每個(gè)標(biāo)注的交互人物對(duì),研究人員首先計(jì)算其一元和二元空間特征。
隨后,使用K-means聚類(lèi)算法確定聚類(lèi)中心,并將其用作交互人物對(duì)的代表性空間模式。
全局空間交互模式提供了一種類(lèi)別無(wú)關(guān)的代表性空間配置,作為理解已見(jiàn)和未見(jiàn)人物交互概念之間交互性的橋梁。
最終,研究人員將結(jié)合后的知識(shí)通過(guò)輕量級(jí)適配器融入到圖像編碼器中。
可泛化的交互分類(lèi)
為了在學(xué)習(xí)人物交互檢測(cè)任務(wù)特定表示的同時(shí)保留CLIP的可泛化通用知識(shí),團(tuán)隊(duì)在文本分支中采用了帶有一致性約束的語(yǔ)言感知提示學(xué)習(xí)(Language-aware Prompt Learning)。
該約束確保已見(jiàn)和未見(jiàn)類(lèi)別的學(xué)習(xí)原型(Prototype)之間保持合理的分離邊界,不會(huì)彼此過(guò)度偏離。
具體來(lái)說(shuō),對(duì)于每個(gè)動(dòng)作類(lèi)別,研究人員首先使用人工設(shè)計(jì)的提示對(duì)其進(jìn)行格式化。利用可學(xué)習(xí)的上下文詞充當(dāng)已見(jiàn)和未見(jiàn)類(lèi)別語(yǔ)義之間的橋梁。
類(lèi)別的最終表示通過(guò)將可學(xué)習(xí)的上下文詞與上述句子的詞向量拼接,然后通過(guò)文本編碼器獲得。
為了進(jìn)一步利用多模態(tài)模型文本編碼器本身學(xué)習(xí)到的特征空間并提高對(duì)未見(jiàn)類(lèi)別的泛化能力,研究人員提出使用人工設(shè)計(jì)的提示來(lái)指導(dǎo)可學(xué)習(xí)語(yǔ)言提示的特征空間。
該約束確保已見(jiàn)和未見(jiàn)類(lèi)別的原型之間保持合理的分離邊界,不會(huì)彼此過(guò)度偏離。
團(tuán)隊(duì)?wèi)?yīng)用正則化對(duì)比學(xué)習(xí)損失來(lái)減少特征表示與人工設(shè)計(jì)語(yǔ)言提示的特征表示之間的差異。
訓(xùn)練CMMP
基于交互性感知的特征圖和預(yù)訓(xùn)練物體檢測(cè)器提取的人和物體的邊界框,團(tuán)隊(duì)首先應(yīng)用ROI-Pooling來(lái)提取不同區(qū)域的特征。
然后,將不同區(qū)域提取的特征進(jìn)行融合,并通過(guò)交互分類(lèi)器進(jìn)行最終的交互類(lèi)別預(yù)測(cè)。
整個(gè)模型在交互分類(lèi)訓(xùn)練中使用了focal loss,同時(shí)還應(yīng)用了語(yǔ)言正則化損失。
實(shí)驗(yàn)結(jié)果
在結(jié)果驗(yàn)證階段,團(tuán)隊(duì)采用人物交互檢測(cè)常用數(shù)據(jù)集HICO-DET,其中的600個(gè)人物交互類(lèi)別由80個(gè)物體類(lèi)別和117個(gè)動(dòng)詞類(lèi)別組成。
為了驗(yàn)證模型的零樣本性能,研究人員在HICO-DET上評(píng)估了五種零樣本設(shè)置。
為了和現(xiàn)有方法實(shí)現(xiàn)公平比較,研究默認(rèn)采用ViT-B/16作為骨干網(wǎng)絡(luò)。
如下表所示,實(shí)驗(yàn)結(jié)果表明,CMMP在所有的零樣本設(shè)定上,都在未見(jiàn)類(lèi)上取得了最佳的性能,這證明了引入條件多模態(tài)提示的有效性。

如表中每種類(lèi)型的最后一行所示,通過(guò)利用ViT-L/14骨干網(wǎng)來(lái)擴(kuò)展CMMP以匹配CLIP4HOI的FLOPs,新方法在所有劃分中都取得了最佳性能。
這表明團(tuán)隊(duì)的模型在視覺(jué)特征的空間關(guān)系提取和交互分類(lèi)的原型學(xué)習(xí)方面具有卓越的能力。
此外,先前的方法在已見(jiàn)和未見(jiàn)類(lèi)別之間表現(xiàn)出嚴(yán)重的性能差異,表明其缺乏泛化能力。
而本研究的模型能夠在很大程度上緩解這一問(wèn)題,并且在泛化到以前未見(jiàn)的交互類(lèi)別方面具有很高的潛力,這證實(shí)了帶有約束的多模態(tài)提示的有效性。
更多細(xì)節(jié)請(qǐng)參考原論文。