CLIP當(dāng)RNN用入選CVPR:無需訓(xùn)練即可分割無數(shù)概念|牛津大學(xué)&谷歌研究院
開放詞匯量圖像分割領(lǐng)域新突破
K君 投稿
量子位 | 公眾號 QbitAI
循環(huán)調(diào)用CLIP,無需額外訓(xùn)練就有效分割無數(shù)概念。
包括電影動漫人物,地標(biāo),品牌,和普通類別在內(nèi)的任意短語。

牛津大學(xué)與谷歌研究院聯(lián)合團(tuán)隊的這項新成果,已被CVPR 2024接收,并開源了代碼。

團(tuán)隊提出名為CLIP as RNN(簡稱CaR)的新技術(shù),解決了開放詞匯量圖像分割領(lǐng)域中的幾個關(guān)鍵問題:
- 無需訓(xùn)練數(shù)據(jù):傳統(tǒng)方法需要大量的掩膜注釋或圖像-文本數(shù)據(jù)集進(jìn)行微調(diào),CaR技術(shù)則無需任何額外的訓(xùn)練數(shù)據(jù)即可工作。
- 開放詞匯量的限制:預(yù)訓(xùn)練的視覺-語言模型(VLMs)在經(jīng)過微調(diào)后,其處理開放詞匯量的能力受到限制。CaR技術(shù)保留了VLMs的廣泛詞匯空間。
- 對非圖像中概念的文本查詢處理:在沒有微調(diào)的情況下,VLMs難以對圖像中不存在的概念進(jìn)行準(zhǔn)確分割,CaR通過迭代過程逐步優(yōu)化,提高了分割質(zhì)量。
受RNN啟發(fā),循環(huán)調(diào)用CLIP
要理解CaR的原理,需要先回顧一下循環(huán)神經(jīng)網(wǎng)絡(luò)RNN。
RNN引入了隱狀態(tài)(hidden state)的概念,就像是一個”記憶體”,存儲了過去時間步的信息。而且每個時間步共享同一組權(quán)重,可以很好地建模序列數(shù)據(jù)。
受RNN啟發(fā),CaR也設(shè)計成循環(huán)的框架,由兩部分組成:
- 掩膜提議生成器:借助CLIP為每個文本查詢生成一個mask。
- 掩膜分類器:再用一個CLIP模型,評估生成的每個mask和對應(yīng)的文本查詢的匹配度。如果匹配度低,就把那個文本查詢剔除掉。
就這樣反復(fù)迭代下去,文本查詢會越來越精準(zhǔn),mask的質(zhì)量也會越來越高。
最后當(dāng)查詢集合不再變化,就可以輸出最終的分割結(jié)果了。

之所以要設(shè)計這個遞歸框架,是為了最大限度地保留CLIP預(yù)訓(xùn)練的”知識”。
CLIP預(yù)訓(xùn)練中見過的概念可是海量,涵蓋了從名人、地標(biāo)到動漫角色等方方面面。如果在分割數(shù)據(jù)集上微調(diào),詞匯量勢必會大幅縮水。
例如“分割一切”SAM模型就只能認(rèn)出一瓶可口可樂,百事可樂是一瓶也不認(rèn)了。

但是直接拿CLIP做分割,效果又不盡如人意。
這是因為CLIP的預(yù)訓(xùn)練目標(biāo)本來就不是為密集預(yù)測設(shè)計的。尤其是當(dāng)圖像中不存在某些文本查詢時,CLIP很容易生成一些錯誤的mask。
CaR巧妙地通過RNN式的迭代來解決這個問題。通過反復(fù)評估、篩選查詢,同時完善mask,最終實現(xiàn)了高質(zhì)量的開放詞匯分割。
最后再來跟隨團(tuán)隊的解讀,了解一下CaR框架的細(xì)節(jié)。
CaR技術(shù)細(xì)節(jié)

- 循環(huán)神經(jīng)網(wǎng)絡(luò)框架:CaR采用了一個新穎的循環(huán)框架,通過迭代過程不斷優(yōu)化文本查詢與圖像之間的對應(yīng)關(guān)系。
- 兩階段分割器:由掩膜提議生成器和掩膜分類器組成,均基于預(yù)訓(xùn)練的CLIP模型構(gòu)建,且權(quán)重在迭代過程中保持不變。
- 掩膜提議生成:使用gradCAM技術(shù),基于圖像和文本特征的相似度得分來生成掩膜提議。
- 視覺提示:應(yīng)用如紅圈、背景模糊等視覺提示,以增強(qiáng)模型對圖像特定區(qū)域的關(guān)注。
- 閾值函數(shù):通過設(shè)置相似度閾值,篩選出與文本查詢對齊程度高的掩膜提議。
- 后處理:使用密集條件隨機(jī)場(CRF)和可選的SAM模型進(jìn)行掩膜細(xì)化。
通過這些技術(shù)手段,CaR技術(shù)在多個標(biāo)準(zhǔn)數(shù)據(jù)集上實現(xiàn)了顯著的性能提升,超越了傳統(tǒng)的零樣本學(xué)習(xí)方法,并在與進(jìn)行了大量數(shù)據(jù)微調(diào)的模型相比時也展現(xiàn)出了競爭力。如下表所示,盡管完全無需額外訓(xùn)練及微調(diào),CaR在零樣本語義分割的8個不同指標(biāo)上表現(xiàn)出比之前在額外數(shù)據(jù)上進(jìn)行微調(diào)過的方法更強(qiáng)的性能。

作者還測試了CaR在零樣本Refering segmentation的效果,CaR也表現(xiàn)出了相較之前零樣本的方法表現(xiàn)出更強(qiáng)的性能。

綜上所述,CaR(CLIP as RNN)是一種創(chuàng)新的循環(huán)神經(jīng)網(wǎng)絡(luò)框架,能夠在無需額外訓(xùn)練數(shù)據(jù)的情況下,有效地進(jìn)行零樣本語義和指代圖像分割任務(wù)。它通過保留預(yù)訓(xùn)練視覺-語言模型的廣泛詞匯空間,并利用迭代過程不斷優(yōu)化文本查詢與掩膜提議的對齊度,顯著提升了分割質(zhì)量。
CaR的優(yōu)勢在于其無需微調(diào)、處理復(fù)雜文本查詢的能力和對視頻領(lǐng)域的擴(kuò)展性,為開放詞匯量圖像分割領(lǐng)域帶來了突破性進(jìn)展。
論文鏈接:
https://arxiv.org/abs/2312.07661
項目主頁:
https://torrvision.com/clip_as_rnn/
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長度,推理能力刷紀(jì)錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語言難題,2300種語言數(shù)字化計劃正在推進(jìn)2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對1億年薪挖人,使命感比鈔票更重要2025-08-18