国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

根據(jù)文本描述從視頻中”摳圖”，Transformer:這種跨模態(tài)任務我最擅長

豐色 2022-03-07 16:22:51 來源：量子位

同時處理文本和視頻

都說Transformer適合處理多模態(tài)任務。

這不，在視頻目標分割領域，就有人用它同時處理文本和視幀，提出了一個結構更簡單、處理速度更快（每秒76幀）的視頻實例分割框架。

這個框架只需一串文本描述，就可以輕松將視頻中的動態(tài)目標“摳”出來：

可以實現(xiàn)端到端訓練的它，在基準測試中的多個指標上表現(xiàn)全部優(yōu)于現(xiàn)有模型。

目前，相關論文已被CVPR 2022接收，研究人員來自以色列理工學院。

主要思路

根據(jù)文本描述進行視頻目標分割這一多模態(tài)任務（RVOS），需要結合文本推理、視頻理解、實例分割和跟蹤技術。

現(xiàn)有的方法通常依賴復雜的pipeline來解決，很難形成一個端到端的簡便好用的模型。

隨時CV和NLP領域的發(fā)展，研究人員意識到，視頻和文本可以同時通過單個多模態(tài)Transformer模型進行有效處理。

為此，他們提出了這個叫做MTTR?（Multimodal Tracking Transformer）的新架構，將RVOS任務建模為序列（sequence）預測問題。

首先，輸入的文本和視頻幀被傳遞給特征編碼器進行特征提取，然后將兩者連接成多模態(tài)序列（每幀一個）。

接著，通過多模態(tài)Transformer對兩者之間的特征關系進行編碼，并將實例級（instance-level ）特征解碼為一組預測序列。

接下來，生成相應的mask和參考預測序列。

最后，將預測序列與基準（ground truth，在有監(jiān)督學習中通常指代樣本集中的標簽）序列進行匹配，以供訓練過程中的監(jiān)督或用于在推理過程中生成最終預測。

具體來說，對于Transformer輸出的每個實例序列，系統(tǒng)會生成一個對應的mask序列。

為了實現(xiàn)這一點，作者采用了類似FPN（特征金字塔網絡）的空間解碼器和動態(tài)生成的條件卷積核。

而通過一個新穎的文本參考分數(shù)函數(shù)，該函數(shù)基于mask和文本關聯(lián)，就可以確定哪個查詢序列與文本描述的對象具有最強的關聯(lián)，然后返回其分割序列作為模型的預測。

精度優(yōu)于所有現(xiàn)有模型

作者在三個相關數(shù)據(jù)集上對MTTR進行了性能測試：JHMDB-Sentences、 A2D-Sentences和Refer-YouTube-VOS。

前兩個數(shù)據(jù)集的衡量指標包括IoU（交并比，1表示預測框與真實邊框完全重合）、平均IoU和precision@K（預測正確的相關結果占所有結果的比例）。

結果如下：

可以看到，MTTR在所有指標上都優(yōu)于所有現(xiàn)有方法，與SOTA模型相比，還在第一個數(shù)據(jù)集上提高了4.3的mAP值（平均精度）。

頂配版MTTR則在平均和總體IoU指標上實現(xiàn)了5.7的mAP增益，可以在單個RTX 3090 GPU上實現(xiàn)每秒處理76幀圖像。

MTTR在JHMDBs上的結果表明MTTR也具備良好的泛化能力。

更具挑戰(zhàn)性的Refer-YouTube-VOS數(shù)據(jù)集的主要評估指標為區(qū)域相似性（J）和輪廓精度（F）的平均值。

MTTR在這些指標上全部“險勝”。

一些可視化結果表明，即使在目標對象被類似實例包圍、被遮擋或完全超出畫面等情況下，MTTR都可以成功地跟蹤和分割文本引用的對象。

最后，作者表示，希望更多人通過這項成果看到Transformer在多模態(tài)任務上的潛力。

最最后，作者也開放了兩個試玩通道，感興趣的同學可以戳文末鏈接～

△ Colab試玩效果

試玩地址：
https://huggingface.co/spaces/akhaliq/MTTR
https://colab.research.google.com/drive/12p0jpSx3pJNfZk-y_L44yeHZlhsKVra-?usp=sharing

論文地址：
https://arxiv.org/abs/2111.14821

代碼已開源：
https://github.com/mttr2021/MTTR

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們，第一時間獲知前沿科技動態(tài)

CVPR 2022 視頻目標分割

豐色

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

根據(jù)文本描述從視頻中”摳圖”，Transformer:這種跨模態(tài)任務我最擅長

主要思路

精度優(yōu)于所有現(xiàn)有模型

相關閱讀

CVPR大會現(xiàn)場紀念孫劍博士，最佳學生論文授予同濟阿里，李飛飛獲黃煦濤紀念獎

給1萬幀視頻做目標分割，顯存占用還不到1.4GB，代碼已開源 | ECCV 2022

評審關上了你CVPR的門？這還有Rebuttal的窗，7個小技巧送上

商湯科技CVPR 2022再創(chuàng)佳績用技術創(chuàng)新直擊行業(yè)痛點

韓國AI團隊抄襲震動學界！1個導師帶51個學生，還是抄襲慣犯

只需2張照片就能2D變3D，這個AI能自己腦補蠟燭吹滅過程，一作二作均是華人 | CVPR 2022

熱門文章

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

標準化3D生成質量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應：下次不遙控了

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學AI了！和奔馳麥當勞一起拜師百度

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

根據(jù)文本描述從視頻中”摳圖”，Transformer:這種跨模態(tài)任務我最擅長

主要思路

精度優(yōu)于所有現(xiàn)有模型

相關閱讀

CVPR大會現(xiàn)場紀念孫劍博士，最佳學生論文授予同濟阿里，李飛飛獲黃煦濤紀念獎

給1萬幀視頻做目標分割，顯存占用還不到1.4GB，代碼已開源 | ECCV 2022

評審關上了你CVPR的門？這還有Rebuttal的窗，7個小技巧送上

商湯科技CVPR 2022再創(chuàng)佳績 用技術創(chuàng)新直擊行業(yè)痛點

韓國AI團隊抄襲震動學界！1個導師帶51個學生，還是抄襲慣犯

只需2張照片就能2D變3D，這個AI能自己腦補蠟燭吹滅過程，一作二作均是華人 | CVPR 2022

熱門文章

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

標準化3D生成質量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應：下次不遙控了

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學AI了！和奔馳麥當勞一起拜師百度

根據(jù)文本描述從視頻中”摳圖”，Transformer:這種跨模態(tài)任務我最擅長

CVPR大會現(xiàn)場紀念孫劍博士，最佳學生論文授予同濟阿里，李飛飛獲黃煦濤紀念獎

給1萬幀視頻做目標分割，顯存占用還不到1.4GB，代碼已開源 | ECCV 2022

評審關上了你CVPR的門？這還有Rebuttal的窗，7個小技巧送上

商湯科技CVPR 2022再創(chuàng)佳績用技術創(chuàng)新直擊行業(yè)痛點

韓國AI團隊抄襲震動學界！1個導師帶51個學生，還是抄襲慣犯

只需2張照片就能2D變3D，這個AI能自己腦補蠟燭吹滅過程，一作二作均是華人 | CVPR 2022

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

標準化3D生成質量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應：下次不遙控了

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學AI了！和奔馳麥當勞一起拜師百度