Llama都在用的RoPE有了視頻版,長視頻理解/檢索絕佳拍檔
復(fù)旦大學(xué)、上海AI Lab等帶來
VideoRoPE團(tuán)隊(duì) 投稿
量子位 | 公眾號 QbitAI
Llama都在用的RoPE(旋轉(zhuǎn)位置嵌入)被擴(kuò)展到視頻領(lǐng)域,長視頻理解和檢索更強(qiáng)了。
復(fù)旦大學(xué)、上海AI實(shí)驗(yàn)室等提出VideoRoPE,并確定了將RoPE有效應(yīng)用于視頻所需的四個關(guān)鍵特性。
在長視頻檢索、視頻理解和視頻幻覺等各種下游任務(wù)中,VideoRoPE始終優(yōu)于先前的RoPE變體。
用三維結(jié)構(gòu)保留時空關(guān)系
RoPE是一種能夠?qū)⑾鄬ξ恢眯畔⒁蕾嚰傻絪elf-attention中并提升transformer架構(gòu)性能的位置編碼方式。
RoPE及其變體因其長上下文處理能力而被廣泛采用,但將一維RoPE擴(kuò)展到具有復(fù)雜時空結(jié)構(gòu)的視頻領(lǐng)域仍然是一個懸而未決的挑戰(zhàn)。
作為分析的一部分,這項(xiàng)工作引入了一個具有挑戰(zhàn)性的V-NIAH-D(帶干擾項(xiàng)的視覺大海撈針)任務(wù),該任務(wù)在V-NIAH任務(wù)的基礎(chǔ)上增加了周期性干擾項(xiàng)。
V-NIAH-D任務(wù)表明,先前缺乏適當(dāng)時間維度分配的RoPE變體很容易被干擾項(xiàng)誤導(dǎo)?;诜治?,作者提出了VideoRoPE,它具有三維結(jié)構(gòu),旨在保留時空關(guān)系。
VideoRoPE的特點(diǎn)包括低頻時間分配以減輕周期性碰撞、對角布局以保持空間對稱性,以及可調(diào)整的時間間隔以解耦時間和空間索引。
左圖:為了展示頻率分配的重要性,基于VIAH(a),作者提出了一個更具挑戰(zhàn)性的V-NIAH-D任務(wù)(b),其中插入了相似圖像作為干擾項(xiàng)。
右圖:與M-RoPE相比,VideoRoPE在檢索中更具魯棒性,并且不容易受到干擾項(xiàng)的影響。
上圖:M-RoPE的時間維度局限于局部信息,導(dǎo)致對角線布局。
下圖:VideoRoPE有效利用時間維度進(jìn)行檢索。
M-RoPE在定位目標(biāo)圖像上有效,但在多選問題中表現(xiàn)不佳,因?yàn)樗饕ㄟ^垂直位置編碼來定位圖像,而非時間特征,導(dǎo)致時間維度未能捕捉長距離依賴關(guān)系,關(guān)注局部信息。相比之下,空間維度則捕捉長距離語義信息,導(dǎo)致M-RoPE在頻率分配設(shè)計上表現(xiàn)較差。
VideoRoPE設(shè)計
作者團(tuán)隊(duì)提出了VideoRoPE,一種視頻位置嵌入策略,優(yōu)先考慮時間建模,通過低頻時間分配(LTA)減少振蕩并確保魯棒性。它采用對角線布局(DL)以保持空間對稱性,并引入可調(diào)時間間隔(ATS)來控制時間間隔。VideoRoPE有效地建模了時空信息,從而實(shí)現(xiàn)了魯棒的視頻位置表示。
1、低頻時間分配(LTA):
考慮一個基于RoPE的LLM,頭部維度為128,對應(yīng)64個旋轉(zhuǎn)角度θn,分布在不同維度上。每個圖示中,用平行的藍(lán)色平面表示cos(θnt)在3維上的表現(xiàn)。
(a)對于M-RoPE,時間依賴性由前16個高頻旋轉(zhuǎn)角度建模,導(dǎo)致振蕩和位置信息失真。低維度間隔較短,振蕩周期性使得遠(yuǎn)距離位置可能具有相似信息,類似哈希碰撞(如紅色平面所示),容易引發(fā)干擾,誤導(dǎo)模型。
(b)相比之下,VideoRoPE通過最后16個旋轉(zhuǎn)角度建模時間依賴性,具有更寬的單調(diào)間隔。時間建模不再受振蕩影響,顯著抑制了干擾項(xiàng)的誤導(dǎo)效應(yīng)。
2、對角線布局(DL):
原始1D RoPE(Su et al., 2024)未包含空間建模。M-RoPE(Wang et al., 2024b)雖然采用3D結(jié)構(gòu),但引入了不同幀間視覺標(biāo)記索引的差異。
相比之下,VideoRoPE實(shí)現(xiàn)了平衡,保留了原始RoPE一致的索引增長模式,并引入了空間建模。優(yōu)點(diǎn)包括:1)保留視覺標(biāo)記的相對位置,避免文本標(biāo)記過于接近角落;2)保持原始RoPE編碼形式,相鄰幀的空間位置信息增量與文本標(biāo)記增量一致。
3、可調(diào)時間間隔(ATS):
為了縮放時間索引,作者團(tuán)隊(duì)引入縮放因子δ來對齊視覺和文本標(biāo)記之間的時間信息。假設(shè)τ為標(biāo)記索引,起始文本(0≤τ<Ts)的時間、水平和垂直索引為原始標(biāo)記索引τ。對于視頻輸入(Ts≤τ<Ts+Tv),τ?Ts表示當(dāng)前幀相對于視頻開始的索引,通過δ縮放控制時間間距。
對于結(jié)束文本(Ts+Tv≤τ<Ts+Tv+Te),時間、水平和垂直索引保持不變,形成線性進(jìn)展。根據(jù)可調(diào)節(jié)的時間間距設(shè)計,視頻位置編碼(VideoRoPE)中τ-th文本標(biāo)記或(τ,w,h)-th視覺標(biāo)記的位置信息(t,x,y)如式(7)所示。
其中,w和h分別表示視覺塊在幀中的水平和垂直索引。
相鄰文本標(biāo)記的位置信息嵌入對于Vanilla RoPE(頂部行)、相鄰幀中對應(yīng)的視覺標(biāo)記對于M-RoPE(中間行)以及我們設(shè)計的帶有交錯水平垂直排布和時間維度放后面設(shè)計的VideoRoPE(底部行)。
優(yōu)于其他RoPE變體
長視頻檢索任務(wù):
作者團(tuán)隊(duì)展示了VideoRoPE與其他RoPE變體在V-NIAH和V-NIAH-D上的性能。V-NIAH-D比V-NIAH更具挑戰(zhàn)性。Vanilla RoPE和TAD-RoPE在視覺訓(xùn)練上下文外具備一定外推能力,但超出極限后失效。相比之下,VideoRoPE和M-RoPE在測試上下文內(nèi)表現(xiàn)優(yōu)越,且VideoRoPE始終優(yōu)于M-RoPE,展現(xiàn)出更強(qiáng)魯棒性。
長視頻理解任務(wù):
如表所示,作者團(tuán)隊(duì)在三個長視頻理解基準(zhǔn)上比較了VideoRoPE與現(xiàn)有RoPE變體(Vanilla RoPE、TAD-RoPE和M-RoPE)。VideoRoPE在這些基準(zhǔn)上優(yōu)于所有基線方法,展示了其魯棒性和適應(yīng)性。在LongVideoBench、MLVU和Video-MME上,VideoRoPE在64k上下文長度下分別比M-RoPE提高了2.91、4.46和1.66分,突顯了其在捕捉長距離依賴關(guān)系和處理具有挑戰(zhàn)性的視頻任務(wù)中的卓越能力。
視頻幻覺任務(wù):
在VideoHallucer基準(zhǔn)測試中,作者團(tuán)隊(duì)的VideoRoPE顯著優(yōu)于現(xiàn)有RoPE方法。特別是在時間幻覺任務(wù)中,VideoRoPE提升了29.5%,展示了更強(qiáng)的時間依賴關(guān)系捕捉能力,適合處理動態(tài)視頻序列。在空間方面,VideoRoPE在對象-關(guān)系幻覺任務(wù)中提升了18.0%,突顯了其辨識復(fù)雜空間交互的能力。這些結(jié)果強(qiáng)調(diào)了VideoRoPE在視頻幻覺問題上的魯棒性和實(shí)際應(yīng)用潛力。
總結(jié)
本文確定了有效位置編碼的四個關(guān)鍵標(biāo)準(zhǔn):2D/3D結(jié)構(gòu)、頻率分配、空間對稱性和時間索引縮放。通過V-NIAH-D任務(wù),作者展示了先前RoPE變體因缺乏適當(dāng)?shù)臅r間分配而易受干擾。
因此,提出了VideoRoPE,采用3D結(jié)構(gòu)保持時空一致性,低頻時間分配減少振蕩,對角布局實(shí)現(xiàn)空間對稱性,并引入可調(diào)節(jié)時間間距。VideoRoPE在長視頻檢索、視頻理解和視頻幻覺任務(wù)中優(yōu)于其他RoPE變體。
Paper:https://arxiv.org/pdf/2502.05173
Project Page:https://wiselnn570.github.io/VideoRoPE/
Code:https://github.com/Wiselnn570/VideoRoPE/
- 4o-mini華人領(lǐng)隊(duì)也離職了,這次不怪小扎2025-08-19
- 宇樹機(jī)器人“撞人逃逸”火到國外,王興興回應(yīng):下次不遙控了2025-08-16
- 突破Claude-4編程上限!自進(jìn)化Agent框架拿下新SOTA,已開源2025-08-19
- 讓OpenAI只領(lǐng)先5天,百川發(fā)布推理新模型,掀翻醫(yī)療垂域開源天花板2025-08-11