国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

Llama都在用的RoPE有了視頻版，長視頻理解/檢索絕佳拍檔

明敏 2025-02-19 12:06:07 來源：量子位

復(fù)旦大學(xué)、上海AI Lab等帶來

VideoRoPE團(tuán)隊(duì) 投稿

量子位 | 公眾號 QbitAI

Llama都在用的RoPE（旋轉(zhuǎn)位置嵌入）被擴(kuò)展到視頻領(lǐng)域，長視頻理解和檢索更強(qiáng)了。

復(fù)旦大學(xué)、上海AI實(shí)驗(yàn)室等提出VideoRoPE，并確定了將RoPE有效應(yīng)用于視頻所需的四個關(guān)鍵特性。

在長視頻檢索、視頻理解和視頻幻覺等各種下游任務(wù)中，VideoRoPE始終優(yōu)于先前的RoPE變體。

用三維結(jié)構(gòu)保留時空關(guān)系

RoPE是一種能夠?qū)⑾鄬ξ恢眯畔⒁蕾嚰傻絪elf-attention中并提升transformer架構(gòu)性能的位置編碼方式。

RoPE及其變體因其長上下文處理能力而被廣泛采用，但將一維RoPE擴(kuò)展到具有復(fù)雜時空結(jié)構(gòu)的視頻領(lǐng)域仍然是一個懸而未決的挑戰(zhàn)。

作為分析的一部分，這項(xiàng)工作引入了一個具有挑戰(zhàn)性的V-NIAH-D（帶干擾項(xiàng)的視覺大海撈針）任務(wù)，該任務(wù)在V-NIAH任務(wù)的基礎(chǔ)上增加了周期性干擾項(xiàng)。

V-NIAH-D任務(wù)表明，先前缺乏適當(dāng)時間維度分配的RoPE變體很容易被干擾項(xiàng)誤導(dǎo)?；诜治?，作者提出了VideoRoPE，它具有三維結(jié)構(gòu)，旨在保留時空關(guān)系。

VideoRoPE的特點(diǎn)包括低頻時間分配以減輕周期性碰撞、對角布局以保持空間對稱性，以及可調(diào)整的時間間隔以解耦時間和空間索引。

左圖：為了展示頻率分配的重要性，基于VIAH（a），作者提出了一個更具挑戰(zhàn)性的V-NIAH-D任務(wù)（b），其中插入了相似圖像作為干擾項(xiàng)。

右圖：與M-RoPE相比，VideoRoPE在檢索中更具魯棒性，并且不容易受到干擾項(xiàng)的影響。

上圖：M-RoPE的時間維度局限于局部信息，導(dǎo)致對角線布局。

下圖：VideoRoPE有效利用時間維度進(jìn)行檢索。

M-RoPE在定位目標(biāo)圖像上有效，但在多選問題中表現(xiàn)不佳，因?yàn)樗饕ㄟ^垂直位置編碼來定位圖像，而非時間特征，導(dǎo)致時間維度未能捕捉長距離依賴關(guān)系，關(guān)注局部信息。相比之下，空間維度則捕捉長距離語義信息，導(dǎo)致M-RoPE在頻率分配設(shè)計上表現(xiàn)較差。
VideoRoPE設(shè)計

作者團(tuán)隊(duì)提出了VideoRoPE，一種視頻位置嵌入策略，優(yōu)先考慮時間建模，通過低頻時間分配（LTA）減少振蕩并確保魯棒性。它采用對角線布局（DL）以保持空間對稱性，并引入可調(diào)時間間隔（ATS）來控制時間間隔。VideoRoPE有效地建模了時空信息，從而實(shí)現(xiàn)了魯棒的視頻位置表示。

1、低頻時間分配（LTA）：

考慮一個基于RoPE的LLM，頭部維度為128，對應(yīng)64個旋轉(zhuǎn)角度θn，分布在不同維度上。每個圖示中，用平行的藍(lán)色平面表示cos(θnt)在3維上的表現(xiàn)。

（a）對于M-RoPE，時間依賴性由前16個高頻旋轉(zhuǎn)角度建模，導(dǎo)致振蕩和位置信息失真。低維度間隔較短，振蕩周期性使得遠(yuǎn)距離位置可能具有相似信息，類似哈希碰撞（如紅色平面所示），容易引發(fā)干擾，誤導(dǎo)模型。

（b）相比之下，VideoRoPE通過最后16個旋轉(zhuǎn)角度建模時間依賴性，具有更寬的單調(diào)間隔。時間建模不再受振蕩影響，顯著抑制了干擾項(xiàng)的誤導(dǎo)效應(yīng)。
2、對角線布局（DL）：

原始1D RoPE（Su et al., 2024）未包含空間建模。M-RoPE（Wang et al., 2024b）雖然采用3D結(jié)構(gòu)，但引入了不同幀間視覺標(biāo)記索引的差異。

相比之下，VideoRoPE實(shí)現(xiàn)了平衡，保留了原始RoPE一致的索引增長模式，并引入了空間建模。優(yōu)點(diǎn)包括：1）保留視覺標(biāo)記的相對位置，避免文本標(biāo)記過于接近角落；2）保持原始RoPE編碼形式，相鄰幀的空間位置信息增量與文本標(biāo)記增量一致。

3、可調(diào)時間間隔（ATS）：

為了縮放時間索引，作者團(tuán)隊(duì)引入縮放因子δ來對齊視覺和文本標(biāo)記之間的時間信息。假設(shè)τ為標(biāo)記索引，起始文本（0≤τ<Ts）的時間、水平和垂直索引為原始標(biāo)記索引τ。對于視頻輸入（Ts≤τ<Ts+Tv），τ?Ts表示當(dāng)前幀相對于視頻開始的索引，通過δ縮放控制時間間距。

對于結(jié)束文本（Ts+Tv≤τ<Ts+Tv+Te），時間、水平和垂直索引保持不變，形成線性進(jìn)展。根據(jù)可調(diào)節(jié)的時間間距設(shè)計，視頻位置編碼（VideoRoPE）中τ-th文本標(biāo)記或（τ,w,h）-th視覺標(biāo)記的位置信息（t,x,y）如式（7）所示。

其中，w和h分別表示視覺塊在幀中的水平和垂直索引。

相鄰文本標(biāo)記的位置信息嵌入對于Vanilla RoPE（頂部行）、相鄰幀中對應(yīng)的視覺標(biāo)記對于M-RoPE（中間行）以及我們設(shè)計的帶有交錯水平垂直排布和時間維度放后面設(shè)計的VideoRoPE（底部行）。
優(yōu)于其他RoPE變體

長視頻檢索任務(wù)：

作者團(tuán)隊(duì)展示了VideoRoPE與其他RoPE變體在V-NIAH和V-NIAH-D上的性能。V-NIAH-D比V-NIAH更具挑戰(zhàn)性。Vanilla RoPE和TAD-RoPE在視覺訓(xùn)練上下文外具備一定外推能力，但超出極限后失效。相比之下，VideoRoPE和M-RoPE在測試上下文內(nèi)表現(xiàn)優(yōu)越，且VideoRoPE始終優(yōu)于M-RoPE，展現(xiàn)出更強(qiáng)魯棒性。

長視頻理解任務(wù)：

如表所示，作者團(tuán)隊(duì)在三個長視頻理解基準(zhǔn)上比較了VideoRoPE與現(xiàn)有RoPE變體（Vanilla RoPE、TAD-RoPE和M-RoPE）。VideoRoPE在這些基準(zhǔn)上優(yōu)于所有基線方法，展示了其魯棒性和適應(yīng)性。在LongVideoBench、MLVU和Video-MME上，VideoRoPE在64k上下文長度下分別比M-RoPE提高了2.91、4.46和1.66分，突顯了其在捕捉長距離依賴關(guān)系和處理具有挑戰(zhàn)性的視頻任務(wù)中的卓越能力。

視頻幻覺任務(wù)：

在VideoHallucer基準(zhǔn)測試中，作者團(tuán)隊(duì)的VideoRoPE顯著優(yōu)于現(xiàn)有RoPE方法。特別是在時間幻覺任務(wù)中，VideoRoPE提升了29.5%，展示了更強(qiáng)的時間依賴關(guān)系捕捉能力，適合處理動態(tài)視頻序列。在空間方面，VideoRoPE在對象-關(guān)系幻覺任務(wù)中提升了18.0%，突顯了其辨識復(fù)雜空間交互的能力。這些結(jié)果強(qiáng)調(diào)了VideoRoPE在視頻幻覺問題上的魯棒性和實(shí)際應(yīng)用潛力。

總結(jié)

本文確定了有效位置編碼的四個關(guān)鍵標(biāo)準(zhǔn)：2D/3D結(jié)構(gòu)、頻率分配、空間對稱性和時間索引縮放。通過V-NIAH-D任務(wù)，作者展示了先前RoPE變體因缺乏適當(dāng)?shù)臅r間分配而易受干擾。

因此，提出了VideoRoPE，采用3D結(jié)構(gòu)保持時空一致性，低頻時間分配減少振蕩，對角布局實(shí)現(xiàn)空間對稱性，并引入可調(diào)節(jié)時間間距。VideoRoPE在長視頻檢索、視頻理解和視頻幻覺任務(wù)中優(yōu)于其他RoPE變體。

Paper：https://arxiv.org/pdf/2502.05173
Project Page：https://wiselnn570.github.io/VideoRoPE/
Code：https://github.com/Wiselnn570/VideoRoPE/

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

視頻理解

明敏

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

Llama都在用的RoPE有了視頻版，長視頻理解/檢索絕佳拍檔

相關(guān)閱讀

3B模型逆襲7B巨頭！Video-XL-Pro突破長視頻理解極限，大海撈針準(zhǔn)確率超98%

大模型無法真正理解視頻，GPT-4o正確率僅36%，南洋理工大團(tuán)隊(duì)提出新基準(zhǔn)

單卡搞定萬幀視頻理解！智源研究院開源輕量級超長視頻理解模型Video-XL-2

達(dá)摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩

熱門文章

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機(jī)器人“撞人逃逸”火到國外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機(jī)插詞匯就行

賣酒的茅臺要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

Llama都在用的RoPE有了視頻版，長視頻理解/檢索絕佳拍檔

相關(guān)閱讀

3B模型逆襲7B巨頭！Video-XL-Pro突破長視頻理解極限，大海撈針準(zhǔn)確率超98%

大模型無法真正理解視頻，GPT-4o正確率僅36%，南洋理工大團(tuán)隊(duì)提出新基準(zhǔn)

單卡搞定萬幀視頻理解！智源研究院開源輕量級超長視頻理解模型Video-XL-2

達(dá)摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩

熱門文章

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機(jī)器人“撞人逃逸”火到國外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機(jī)插詞匯就行

賣酒的茅臺要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度

Llama都在用的RoPE有了視頻版，長視頻理解/檢索絕佳拍檔

3B模型逆襲7B巨頭！Video-XL-Pro突破長視頻理解極限，大海撈針準(zhǔn)確率超98%

單卡搞定萬幀視頻理解！智源研究院開源輕量級超長視頻理解模型Video-XL-2

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機(jī)器人“撞人逃逸”火到國外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機(jī)插詞匯就行

賣酒的茅臺要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度