分割/識(shí)別/解說一個(gè)模型搞定!3B參數(shù)刷新視覺理解SOTA,圖像視頻全適配
所有數(shù)據(jù)均已完全開源
PAM團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI
可以輸出語義的「分割一切模型2.0」來了!
一次交互,「分割+識(shí)別+解釋+描述」全搞定,同時(shí)支持圖像、視頻和長視頻,文本&Mask同時(shí)輸出!
由港中文MMLab、港理工、北京大學(xué)等機(jī)構(gòu)開源的PAM(Perceive Anything Model)模型,能夠在保留SAM2分割一切、追蹤一切能力的基礎(chǔ)上,同時(shí)輸出豐富的語義信息。

為了訓(xùn)練這樣一個(gè)強(qiáng)大的模型,PAM團(tuán)隊(duì)還構(gòu)建了一個(gè)超大規(guī)模高質(zhì)量訓(xùn)練數(shù)據(jù)集:擁有150萬個(gè)圖像區(qū)域+60萬個(gè)視頻區(qū)域標(biāo)注
實(shí)驗(yàn)結(jié)果表明,PAM僅使用3B參數(shù),就在多個(gè)圖像和視頻理解基準(zhǔn)上全面刷新或逼近SOTA,且具備更優(yōu)的推理效率和顯存占用,真正實(shí)現(xiàn)性能與輕量的統(tǒng)一。
所有數(shù)據(jù)均已完全開源。

PAM:準(zhǔn)確定位一鍵輸出
一些最新的Video LLM模型嘗試結(jié)合VLM和SAM2的強(qiáng)大視覺提示能力,進(jìn)行視頻理解。然而:
-
這些模型往往無法直接輸出分割結(jié)果,或需要額外接入segment模型,流程復(fù)雜; -
模型體量通常非常龐大,對計(jì)算資源要求高,不適用于輕量化、快速響應(yīng)的實(shí)際場景(如AR/VR、移動(dòng)端推理等)。

而PAM(Perceive Anything Model)既保留了SAM2在圖像和視頻中分割、追蹤一切物體的能力,同時(shí)可以輸出豐富的語義信息:
在圖像任務(wù)中,PAM支持一次點(diǎn)擊即可輸出選中區(qū)域的:
-
類別(Label) -
解釋(Explain) -
精細(xì)描述(Caption)
在視頻任務(wù)中,PAM同樣支持區(qū)域理解:
-
整段描述(Caption) -
流式描述(Streaming Caption):連續(xù)事件追蹤+動(dòng)態(tài)敘述
只需要用戶的一次點(diǎn)擊,PAM就可以并行輸出mask和文本,在許多應(yīng)用場景下都具有潛力!
效果展示:圖片/短視頻/長視頻

對于圖片,用戶通過點(diǎn)擊或者拖拽矩形框選中一個(gè)物體,PAM可以完成分割的同時(shí),輸出該物體的類別+解釋+描述的詳細(xì)語義信息!
對于較短視頻,用戶選中特定物體后,PAM可以追蹤并分割該物體,同時(shí)輸出該物體的事件描述。
而對于長視頻,PAM在追蹤分割用戶選中物體的同時(shí),會(huì)根據(jù)事件的變化,動(dòng)態(tài)地輸出流式描述,類似實(shí)時(shí)字幕。
工作原理:模型框架+數(shù)據(jù)集

PAM引入了Semantic Perceiver來連接SAM2分割骨架和LLM,高效地將視覺特征“翻譯”成多模態(tài)token。
通過SAM2分割骨架+Semantic Perceiver+LLM并行解碼,在保證輕量高效的前提下,實(shí)現(xiàn)了分割mask和語義信息并行輸出的圖像/視頻區(qū)域級理解。
基于此方法,PAM只使用了1.5B/3B參數(shù)的LLM head,就可以輸出非常豐富和魯棒的語義信息。

為支撐PAM的訓(xùn)練,構(gòu)建了一個(gè)大規(guī)模、多層次、高密度的圖像與視頻語義標(biāo)注數(shù)據(jù)集,覆蓋分類、解釋、描述、時(shí)序事件等多個(gè)維度:
圖像數(shù)據(jù):精細(xì)三連注釋
使用SoM(Set of Masks)方法精準(zhǔn)定位目標(biāo)區(qū)域**,結(jié)合強(qiáng)大的閉源VLM(如GPT-4o)生成三類語義信息:
-
類別(Label) -
解釋(Explain) -
描述(Caption)
視頻數(shù)據(jù):Storyboard驅(qū)動(dòng)式理解
-
對每段視頻抽取6張關(guān)鍵幀,合成為Storyboard格式的高分辨率圖像; -
使用SoM高亮目標(biāo)區(qū)域,作為提示引導(dǎo); -
利用閉源VLM進(jìn)行多幀聯(lián)合推理,生成細(xì)節(jié)豐富、時(shí)間感知強(qiáng)的事件描述。
流式視頻數(shù)據(jù):連貫事件字幕的首創(chuàng)實(shí)踐
-
將長視頻切分為多個(gè)連續(xù)不重疊的事件片段; -
每段片段重復(fù)Storyboard流程; -
并在生成描述時(shí)遞歸引入前一段文字內(nèi)容,讓字幕連貫銜接,保證上下文一致性。
實(shí)驗(yàn)分析:規(guī)模更小、性能更好

可以看到,PAM-3B在PACO基準(zhǔn)測試中達(dá)到最佳性能,超過先前最佳模型3.2%以上,并在LVIS基準(zhǔn)測試中,就語義IoU而言,超越了當(dāng)前SOTA模型DAM-8B。
此外,PAM-3B在Total-Text上超過VP-SPHINX-13B超過3.5%,并在COCO-Text上達(dá)到相當(dāng)?shù)男阅堋?br />
在ImageCaption、VideoCaption、視頻時(shí)序事件理解等多個(gè)benchmark上,PAM都以更小的參數(shù)規(guī)模(3Bvs8B、13B)刷新或并列SOTA。

如圖所示,和相同參數(shù)量的DAM-3B模型相比,PAM-3B推理更快,顯存更省。
此外,PAM首創(chuàng)了區(qū)域級的流式視頻字幕能力,不僅能持續(xù)描述一個(gè)物體的行為,還能在連續(xù)事件中保持高度語義一致性,展現(xiàn)了強(qiáng)大的實(shí)際應(yīng)用潛力。
論文地址:https://arxiv.org/abs/2506.05302
項(xiàng)目主頁:https://perceive-anything.github.io/
GitHub Repo:https://github.com/Perceive-Anything/PAM
Model CKPT:https://huggingface.co/Perceive-Anything/PAM-3B
Dataset:https://huggingface.co/datasets/Perceive-Anything/PAM-data
- 阿里全新AI IDE現(xiàn)在免費(fèi)用:超強(qiáng)上下文理解,覆蓋整個(gè)代碼庫2025-08-22
- 北大ChatExcel,獲得千萬級新投資2025-08-21
- 實(shí)測DeepSeek V3.1,不止拓展上下文長度2025-08-20
- 英偉達(dá)開源9B參數(shù)小模型,比Qwen3快6倍2025-08-19