根據(jù)文本描述從視頻中”摳圖”,Transformer:這種跨模態(tài)任務我最擅長
同時處理文本和視頻
都說Transformer適合處理多模態(tài)任務。
這不,在視頻目標分割領域,就有人用它同時處理文本和視幀,提出了一個結構更簡單、處理速度更快(每秒76幀)的視頻實例分割框架。
這個框架只需一串文本描述,就可以輕松將視頻中的動態(tài)目標“摳”出來:
可以實現(xiàn)端到端訓練的它,在基準測試中的多個指標上表現(xiàn)全部優(yōu)于現(xiàn)有模型。
目前,相關論文已被CVPR 2022接收,研究人員來自以色列理工學院。
主要思路
根據(jù)文本描述進行視頻目標分割這一多模態(tài)任務(RVOS),需要結合文本推理、視頻理解、實例分割和跟蹤技術。
現(xiàn)有的方法通常依賴復雜的pipeline來解決,很難形成一個端到端的簡便好用的模型。
隨時CV和NLP領域的發(fā)展,研究人員意識到,視頻和文本可以同時通過單個多模態(tài)Transformer模型進行有效處理。
為此,他們提出了這個叫做MTTR?(Multimodal Tracking Transformer)的新架構,將RVOS任務建模為序列(sequence)預測問題。
首先,輸入的文本和視頻幀被傳遞給特征編碼器進行特征提取,然后將兩者連接成多模態(tài)序列(每幀一個)。
接著,通過多模態(tài)Transformer對兩者之間的特征關系進行編碼,并將實例級(instance-level )特征解碼為一組預測序列。
接下來,生成相應的mask和參考預測序列。
最后,將預測序列與基準(ground truth,在有監(jiān)督學習中通常指代樣本集中的標簽)序列進行匹配,以供訓練過程中的監(jiān)督或用于在推理過程中生成最終預測。
具體來說,對于Transformer輸出的每個實例序列,系統(tǒng)會生成一個對應的mask序列。
為了實現(xiàn)這一點,作者采用了類似FPN(特征金字塔網絡)的空間解碼器和動態(tài)生成的條件卷積核。
而通過一個新穎的文本參考分數(shù)函數(shù),該函數(shù)基于mask和文本關聯(lián),就可以確定哪個查詢序列與文本描述的對象具有最強的關聯(lián),然后返回其分割序列作為模型的預測。
精度優(yōu)于所有現(xiàn)有模型
作者在三個相關數(shù)據(jù)集上對MTTR進行了性能測試:JHMDB-Sentences、 A2D-Sentences和Refer-YouTube-VOS。
前兩個數(shù)據(jù)集的衡量指標包括IoU(交并比,1表示預測框與真實邊框完全重合)、平均IoU和precision@K(預測正確的相關結果占所有結果的比例)。
結果如下:
可以看到,MTTR在所有指標上都優(yōu)于所有現(xiàn)有方法,與SOTA模型相比,還在第一個數(shù)據(jù)集上提高了4.3的mAP值(平均精度)。
頂配版MTTR則在平均和總體IoU指標上實現(xiàn)了5.7的mAP增益,可以在單個RTX 3090 GPU上實現(xiàn)每秒處理76幀圖像。
MTTR在JHMDBs上的結果表明MTTR也具備良好的泛化能力。
更具挑戰(zhàn)性的Refer-YouTube-VOS數(shù)據(jù)集的主要評估指標為區(qū)域相似性(J)和輪廓精度(F)的平均值。
MTTR在這些指標上全部“險勝”。
一些可視化結果表明,即使在目標對象被類似實例包圍、被遮擋或完全超出畫面等情況下,MTTR都可以成功地跟蹤和分割文本引用的對象。
最后,作者表示,希望更多人通過這項成果看到Transformer在多模態(tài)任務上的潛力。
最最后,作者也開放了兩個試玩通道,感興趣的同學可以戳文末鏈接~
△ Colab試玩效果
試玩地址:
https://huggingface.co/spaces/akhaliq/MTTR
https://colab.research.google.com/drive/12p0jpSx3pJNfZk-y_L44yeHZlhsKVra-?usp=sharing
論文地址:
https://arxiv.org/abs/2111.14821
代碼已開源:
https://github.com/mttr2021/MTTR
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們,第一時間獲知前沿科技動態(tài)
- 北大開源最強aiXcoder-7B代碼大模型!聚焦真實開發(fā)場景,專為企業(yè)私有部署設計2024-04-09
- 剛剛,圖靈獎揭曉!史上首位數(shù)學和計算機最高獎“雙料王”出現(xiàn)了2024-04-10
- 8.3K Stars!《多模態(tài)大語言模型綜述》重大升級2024-04-10
- 谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用2024-04-10