根據(jù)文本描述從視頻中”摳圖”,Transformer:這種跨模態(tài)任務(wù)我最擅長
同時處理文本和視頻
都說Transformer適合處理多模態(tài)任務(wù)。
這不,在視頻目標(biāo)分割領(lǐng)域,就有人用它同時處理文本和視幀,提出了一個結(jié)構(gòu)更簡單、處理速度更快(每秒76幀)的視頻實例分割框架。
這個框架只需一串文本描述,就可以輕松將視頻中的動態(tài)目標(biāo)“摳”出來:
可以實現(xiàn)端到端訓(xùn)練的它,在基準(zhǔn)測試中的多個指標(biāo)上表現(xiàn)全部優(yōu)于現(xiàn)有模型。
目前,相關(guān)論文已被CVPR 2022接收,研究人員來自以色列理工學(xué)院。
主要思路
根據(jù)文本描述進行視頻目標(biāo)分割這一多模態(tài)任務(wù)(RVOS),需要結(jié)合文本推理、視頻理解、實例分割和跟蹤技術(shù)。
現(xiàn)有的方法通常依賴復(fù)雜的pipeline來解決,很難形成一個端到端的簡便好用的模型。
隨時CV和NLP領(lǐng)域的發(fā)展,研究人員意識到,視頻和文本可以同時通過單個多模態(tài)Transformer模型進行有效處理。
為此,他們提出了這個叫做MTTR?(Multimodal Tracking Transformer)的新架構(gòu),將RVOS任務(wù)建模為序列(sequence)預(yù)測問題。
首先,輸入的文本和視頻幀被傳遞給特征編碼器進行特征提取,然后將兩者連接成多模態(tài)序列(每幀一個)。
接著,通過多模態(tài)Transformer對兩者之間的特征關(guān)系進行編碼,并將實例級(instance-level )特征解碼為一組預(yù)測序列。
接下來,生成相應(yīng)的mask和參考預(yù)測序列。
最后,將預(yù)測序列與基準(zhǔn)(ground truth,在有監(jiān)督學(xué)習(xí)中通常指代樣本集中的標(biāo)簽)序列進行匹配,以供訓(xùn)練過程中的監(jiān)督或用于在推理過程中生成最終預(yù)測。
具體來說,對于Transformer輸出的每個實例序列,系統(tǒng)會生成一個對應(yīng)的mask序列。
為了實現(xiàn)這一點,作者采用了類似FPN(特征金字塔網(wǎng)絡(luò))的空間解碼器和動態(tài)生成的條件卷積核。
而通過一個新穎的文本參考分?jǐn)?shù)函數(shù),該函數(shù)基于mask和文本關(guān)聯(lián),就可以確定哪個查詢序列與文本描述的對象具有最強的關(guān)聯(lián),然后返回其分割序列作為模型的預(yù)測。
精度優(yōu)于所有現(xiàn)有模型
作者在三個相關(guān)數(shù)據(jù)集上對MTTR進行了性能測試:JHMDB-Sentences、 A2D-Sentences和Refer-YouTube-VOS。
前兩個數(shù)據(jù)集的衡量指標(biāo)包括IoU(交并比,1表示預(yù)測框與真實邊框完全重合)、平均IoU和precision@K(預(yù)測正確的相關(guān)結(jié)果占所有結(jié)果的比例)。
結(jié)果如下:
可以看到,MTTR在所有指標(biāo)上都優(yōu)于所有現(xiàn)有方法,與SOTA模型相比,還在第一個數(shù)據(jù)集上提高了4.3的mAP值(平均精度)。
頂配版MTTR則在平均和總體IoU指標(biāo)上實現(xiàn)了5.7的mAP增益,可以在單個RTX 3090 GPU上實現(xiàn)每秒處理76幀圖像。
MTTR在JHMDBs上的結(jié)果表明MTTR也具備良好的泛化能力。
更具挑戰(zhàn)性的Refer-YouTube-VOS數(shù)據(jù)集的主要評估指標(biāo)為區(qū)域相似性(J)和輪廓精度(F)的平均值。
MTTR在這些指標(biāo)上全部“險勝”。
一些可視化結(jié)果表明,即使在目標(biāo)對象被類似實例包圍、被遮擋或完全超出畫面等情況下,MTTR都可以成功地跟蹤和分割文本引用的對象。
最后,作者表示,希望更多人通過這項成果看到Transformer在多模態(tài)任務(wù)上的潛力。
最最后,作者也開放了兩個試玩通道,感興趣的同學(xué)可以戳文末鏈接~
△ Colab試玩效果
試玩地址:
https://huggingface.co/spaces/akhaliq/MTTR
https://colab.research.google.com/drive/12p0jpSx3pJNfZk-y_L44yeHZlhsKVra-?usp=sharing
論文地址:
https://arxiv.org/abs/2111.14821
代碼已開源:
https://github.com/mttr2021/MTTR
— 完 —
量子位 QbitAI · 頭條號簽約
關(guān)注我們,第一時間獲知前沿科技動態(tài)
- 北大開源最強aiXcoder-7B代碼大模型!聚焦真實開發(fā)場景,專為企業(yè)私有部署設(shè)計2024-04-09
- 剛剛,圖靈獎揭曉!史上首位數(shù)學(xué)和計算機最高獎“雙料王”出現(xiàn)了2024-04-10
- 8.3K Stars!《多模態(tài)大語言模型綜述》重大升級2024-04-10
- 谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用2024-04-10