国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

CLIP當(dāng)RNN用入選CVPR：無需訓(xùn)練即可分割無數(shù)概念｜牛津大學(xué)&谷歌研究院

夢晨 2024-06-06 09:13:23 來源：量子位

開放詞匯量圖像分割領(lǐng)域新突破

K君投稿
量子位 | 公眾號 QbitAI

循環(huán)調(diào)用CLIP，無需額外訓(xùn)練就有效分割無數(shù)概念。

包括電影動漫人物，地標(biāo)，品牌，和普通類別在內(nèi)的任意短語。

CLIP當(dāng)RNN用入選CVPR：無需訓(xùn)練即可分割無數(shù)概念｜牛津大學(xué)&谷歌研究院

牛津大學(xué)與谷歌研究院聯(lián)合團(tuán)隊的這項新成果，已被CVPR 2024接收，并開源了代碼。

團(tuán)隊提出名為CLIP as RNN（簡稱CaR）的新技術(shù)，解決了開放詞匯量圖像分割領(lǐng)域中的幾個關(guān)鍵問題：

無需訓(xùn)練數(shù)據(jù)：傳統(tǒng)方法需要大量的掩膜注釋或圖像-文本數(shù)據(jù)集進(jìn)行微調(diào)，CaR技術(shù)則無需任何額外的訓(xùn)練數(shù)據(jù)即可工作。
開放詞匯量的限制：預(yù)訓(xùn)練的視覺-語言模型（VLMs）在經(jīng)過微調(diào)后，其處理開放詞匯量的能力受到限制。CaR技術(shù)保留了VLMs的廣泛詞匯空間。
對非圖像中概念的文本查詢處理：在沒有微調(diào)的情況下，VLMs難以對圖像中不存在的概念進(jìn)行準(zhǔn)確分割，CaR通過迭代過程逐步優(yōu)化，提高了分割質(zhì)量。

受RNN啟發(fā)，循環(huán)調(diào)用CLIP

要理解CaR的原理，需要先回顧一下循環(huán)神經(jīng)網(wǎng)絡(luò)RNN。

RNN引入了隱狀態(tài)(hidden state)的概念，就像是一個”記憶體”，存儲了過去時間步的信息。而且每個時間步共享同一組權(quán)重，可以很好地建模序列數(shù)據(jù)。

受RNN啟發(fā)，CaR也設(shè)計成循環(huán)的框架，由兩部分組成：

掩膜提議生成器：借助CLIP為每個文本查詢生成一個mask。
掩膜分類器：再用一個CLIP模型，評估生成的每個mask和對應(yīng)的文本查詢的匹配度。如果匹配度低，就把那個文本查詢剔除掉。

就這樣反復(fù)迭代下去，文本查詢會越來越精準(zhǔn)，mask的質(zhì)量也會越來越高。

最后當(dāng)查詢集合不再變化，就可以輸出最終的分割結(jié)果了。

之所以要設(shè)計這個遞歸框架，是為了最大限度地保留CLIP預(yù)訓(xùn)練的”知識”。

CLIP預(yù)訓(xùn)練中見過的概念可是海量，涵蓋了從名人、地標(biāo)到動漫角色等方方面面。如果在分割數(shù)據(jù)集上微調(diào)，詞匯量勢必會大幅縮水。

例如“分割一切”SAM模型就只能認(rèn)出一瓶可口可樂，百事可樂是一瓶也不認(rèn)了。

但是直接拿CLIP做分割，效果又不盡如人意。

這是因為CLIP的預(yù)訓(xùn)練目標(biāo)本來就不是為密集預(yù)測設(shè)計的。尤其是當(dāng)圖像中不存在某些文本查詢時，CLIP很容易生成一些錯誤的mask。

CaR巧妙地通過RNN式的迭代來解決這個問題。通過反復(fù)評估、篩選查詢，同時完善mask，最終實現(xiàn)了高質(zhì)量的開放詞匯分割。

最后再來跟隨團(tuán)隊的解讀，了解一下CaR框架的細(xì)節(jié)。

CaR技術(shù)細(xì)節(jié)

循環(huán)神經(jīng)網(wǎng)絡(luò)框架：CaR采用了一個新穎的循環(huán)框架，通過迭代過程不斷優(yōu)化文本查詢與圖像之間的對應(yīng)關(guān)系。
兩階段分割器：由掩膜提議生成器和掩膜分類器組成，均基于預(yù)訓(xùn)練的CLIP模型構(gòu)建，且權(quán)重在迭代過程中保持不變。
掩膜提議生成：使用gradCAM技術(shù)，基于圖像和文本特征的相似度得分來生成掩膜提議。
視覺提示：應(yīng)用如紅圈、背景模糊等視覺提示，以增強(qiáng)模型對圖像特定區(qū)域的關(guān)注。
閾值函數(shù)：通過設(shè)置相似度閾值，篩選出與文本查詢對齊程度高的掩膜提議。
后處理：使用密集條件隨機(jī)場（CRF）和可選的SAM模型進(jìn)行掩膜細(xì)化。

通過這些技術(shù)手段，CaR技術(shù)在多個標(biāo)準(zhǔn)數(shù)據(jù)集上實現(xiàn)了顯著的性能提升，超越了傳統(tǒng)的零樣本學(xué)習(xí)方法，并在與進(jìn)行了大量數(shù)據(jù)微調(diào)的模型相比時也展現(xiàn)出了競爭力。如下表所示，盡管完全無需額外訓(xùn)練及微調(diào)，CaR在零樣本語義分割的8個不同指標(biāo)上表現(xiàn)出比之前在額外數(shù)據(jù)上進(jìn)行微調(diào)過的方法更強(qiáng)的性能。

作者還測試了CaR在零樣本Refering segmentation的效果，CaR也表現(xiàn)出了相較之前零樣本的方法表現(xiàn)出更強(qiáng)的性能。

綜上所述，CaR（CLIP as RNN）是一種創(chuàng)新的循環(huán)神經(jīng)網(wǎng)絡(luò)框架，能夠在無需額外訓(xùn)練數(shù)據(jù)的情況下，有效地進(jìn)行零樣本語義和指代圖像分割任務(wù)。它通過保留預(yù)訓(xùn)練視覺-語言模型的廣泛詞匯空間，并利用迭代過程不斷優(yōu)化文本查詢與掩膜提議的對齊度，顯著提升了分割質(zhì)量。

CaR的優(yōu)勢在于其無需微調(diào)、處理復(fù)雜文本查詢的能力和對視頻領(lǐng)域的擴(kuò)展性，為開放詞匯量圖像分割領(lǐng)域帶來了突破性進(jìn)展。

論文鏈接：
https://arxiv.org/abs/2312.07661
項目主頁：
https://torrvision.com/clip_as_rnn/

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

語義分割

夢晨

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

CLIP當(dāng)RNN用入選CVPR：無需訓(xùn)練即可分割無數(shù)概念｜牛津大學(xué)&谷歌研究院

受RNN啟發(fā)，循環(huán)調(diào)用CLIP

CaR技術(shù)細(xì)節(jié)

相關(guān)閱讀

一大波PyTorch圖像分割模型來襲，俄羅斯程序員出品新model zoo

用Transformer進(jìn)行圖像語義分割，性能超最先進(jìn)的卷積方法！

谷歌發(fā)布人體圖像分割工具BodyPix 2.0，支持多人識別，可在iPhone上流暢運行

嬴徹科技拿下SemanticKITTI榜單兩項第一

給自動駕駛AI搞個“外掛”，0.1M就能顯著提升運動狀態(tài)判別力，來自港大&TCL丨開源

手機(jī)拍視頻，實時換背景，繼馬卡龍玩圖后，Versa又出了一款更厲害的App

熱門文章

谷歌版小鋼炮開源！0.27B大模型，4個注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

國家級AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬元獎金池+全場景賽道，沖線團(tuán)隊速來

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強(qiáng)29%

百度AICA第9期開課：18大行業(yè)96位首席AI架構(gòu)師齊探AI產(chǎn)業(yè)落地

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

CLIP當(dāng)RNN用入選CVPR：無需訓(xùn)練即可分割無數(shù)概念｜牛津大學(xué)&谷歌研究院

受RNN啟發(fā)，循環(huán)調(diào)用CLIP

CaR技術(shù)細(xì)節(jié)

相關(guān)閱讀

一大波PyTorch圖像分割模型來襲，俄羅斯程序員出品新model zoo

用Transformer進(jìn)行圖像語義分割，性能超最先進(jìn)的卷積方法！

谷歌發(fā)布人體圖像分割工具BodyPix 2.0，支持多人識別，可在iPhone上流暢運行

嬴徹科技拿下SemanticKITTI榜單兩項第一

給自動駕駛AI搞個“外掛”，0.1M就能顯著提升運動狀態(tài)判別力，來自港大&TCL丨開源

手機(jī)拍視頻，實時換背景，繼馬卡龍玩圖后，Versa又出了一款更厲害的App

熱門文章

谷歌版小鋼炮開源！0.27B大模型，4個注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

國家級AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬元獎金池+全場景賽道，沖線團(tuán)隊速來

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強(qiáng)29%

百度AICA第9期開課：18大行業(yè)96位首席AI架構(gòu)師齊探AI產(chǎn)業(yè)落地

一大波PyTorch圖像分割模型來襲，俄羅斯程序員出品新model zoo

用Transformer進(jìn)行圖像語義分割，性能超最先進(jìn)的卷積方法！

谷歌發(fā)布人體圖像分割工具BodyPix 2.0，支持多人識別，可在iPhone上流暢運行

給自動駕駛AI搞個“外掛”，0.1M就能顯著提升運動狀態(tài)判別力，來自港大&TCL丨開源

手機(jī)拍視頻，實時換背景，繼馬卡龍玩圖后，Versa又出了一款更厲害的App

谷歌版小鋼炮開源！0.27B大模型，4個注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

國家級AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬元獎金池+全場景賽道，沖線團(tuán)隊速來

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強(qiáng)29%