AI看視頻自動(dòng)找“高能時(shí)刻”|字節(jié)&中科院自動(dòng)化所@AAAI 2024
數(shù)據(jù)集代碼都開放
夢(mèng)晨 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
大家看視頻用過“高光時(shí)刻”功能嗎?
觀眾可以直接空降到精彩時(shí)刻,主播也可以從長(zhǎng)時(shí)間直播錄像中復(fù)盤自己的表現(xiàn)。

字節(jié)跳動(dòng)聯(lián)合中科院自動(dòng)化研究所提出新方法,用AI快速檢測(cè)出視頻中的高光片段,對(duì)輸入視頻的長(zhǎng)度以及期望提取的高光長(zhǎng)度都具有極高的靈活性,相關(guān)論文已被AAAI 2024收錄。

基于原型學(xué)習(xí)的基準(zhǔn)解決方案
連續(xù)學(xué)習(xí)問題在圖像識(shí)別領(lǐng)域得到了很好的發(fā)展,有效緩解了深度學(xué)習(xí)模型所面臨的災(zāi)難性遺忘問題。然而,現(xiàn)有的技術(shù)大多適用于圖像域,在視頻域上探索連續(xù)學(xué)習(xí)的相關(guān)方法還比較少。分析其中的原因,主要是兩個(gè)方面的困境:其一是缺少用于增量學(xué)習(xí)的視頻數(shù)據(jù)集以及評(píng)測(cè)標(biāo)準(zhǔn);其二是缺少一個(gè)適用于視頻域增量學(xué)習(xí)的基準(zhǔn)方法。
面對(duì)這一挑戰(zhàn),字節(jié)跳動(dòng)聯(lián)合中科院自動(dòng)化研究所標(biāo)注了用于域增量學(xué)習(xí)的美食視頻數(shù)據(jù)集LiveFood,并在此基礎(chǔ)上,提出了基于原型學(xué)習(xí)的基準(zhǔn)解決方案:Global Prototype Encoding(GPE)。
GPE克服了現(xiàn)有增量學(xué)習(xí)方案的諸多弊端,通過在圖像幀級(jí)別上的打分,幫助快速檢測(cè)出視頻中的高光片段,對(duì)輸入視頻的長(zhǎng)度以及期望提取的高光長(zhǎng)度都具有極高的靈活性。
問題定義與數(shù)據(jù)搜集
要解決連續(xù)學(xué)習(xí)設(shè)定下的視頻高光檢測(cè),避不開兩個(gè)關(guān)鍵點(diǎn):其一是數(shù)據(jù)集,其二是任務(wù)定義。
考慮到美食視頻是當(dāng)下的一大熱點(diǎn),本篇文章從美食視頻入手,以期獲得更大的應(yīng)用范圍。在美食垂類中,本文定義了四個(gè)域,分別是:食材準(zhǔn)備(ingredients),烹飪(cooking),成品展示(presentation),以及美食享用(eating)。
這四個(gè)域可以基本涵蓋美食視頻中的精彩部分。在此基礎(chǔ)上,作者收集了5100多條美食視頻數(shù)據(jù),組成了LiveFood數(shù)據(jù)集。標(biāo)注人員對(duì)該數(shù)據(jù)集做了詳細(xì)的人工標(biāo)注,指明高光的片段的起止時(shí)間以及對(duì)應(yīng)的域。標(biāo)注的過程經(jīng)過兩次校對(duì),確保標(biāo)注的準(zhǔn)確性。LiveFood數(shù)據(jù)集的基本信息如下:

△?圖片1
圖片1(a)反映了LiveFood中的視頻,多數(shù)時(shí)長(zhǎng)都在200秒以內(nèi),是短視頻的范疇;圖片1(b)反映了LiveFood中的高光標(biāo)注,主要集中在9秒鐘以下;圖片1(c)反映了LiveFood中的視頻高光較均勻地分布在整個(gè)視頻,可以有效防止模型學(xué)習(xí)捷徑。
作者指出,在圖像識(shí)別中,由于每張圖像大多只包含一種域(風(fēng)格),因此域增量學(xué)習(xí)任務(wù)較容易定義,但是在視頻任務(wù)中,該前提不再成立。例如,在LiveFood中,一個(gè)視頻可能包含著若干美食域。
基于此,作者約束:在當(dāng)前訓(xùn)練階段中,視頻中不可以包含前序訓(xùn)練階段中出現(xiàn)的域組合。
例如,在第一訓(xùn)練階段,所有的視頻只包含「美食展示」這一域,在第二個(gè)訓(xùn)練階段,新增「美食享用」這一域,那么,在第二階段出現(xiàn)的每個(gè)視頻,其域組合有兩種,其一是僅有「美食享用」,其二是同時(shí)包含「美食展示,美食享用」。
而在第一階段出現(xiàn)的「美食享用」不可再單獨(dú)出現(xiàn)。評(píng)測(cè)集中的視頻有著所有的域標(biāo)注,在對(duì)應(yīng)的訓(xùn)練階段,只評(píng)測(cè)該訓(xùn)練階段及前序階段出現(xiàn)的域,未出現(xiàn)的域不參與評(píng)測(cè)。評(píng)測(cè)指標(biāo)為高光檢測(cè)的mAP。下表展示了LiveFood和現(xiàn)有數(shù)據(jù)的一些對(duì)比,表明LiveFood更適合用來做增量學(xué)習(xí):

△表格1
技術(shù)創(chuàng)新路徑
現(xiàn)有增量學(xué)習(xí)的解決方案可以粗略分為三個(gè)大方向:
其一是數(shù)據(jù)回放,即通過一定的篩選機(jī)制,在每個(gè)訓(xùn)練階段保存具有代表性的數(shù)據(jù),這些數(shù)據(jù)將參與后續(xù)階段的訓(xùn)練,從而減緩模型的遺忘現(xiàn)象;
其二是參數(shù)正則,即約束模型參數(shù)的變化量,保持對(duì)前序階段所學(xué)內(nèi)容的響應(yīng);
其三是模型增長(zhǎng),即使用不同的模型,來解決不同訓(xùn)練階段的任務(wù),用隔離的方式緩解遺忘現(xiàn)象。
GPE的設(shè)計(jì)期望達(dá)成以下目標(biāo):
其一,不顯式使用數(shù)據(jù)回放,因?yàn)檫x擇代表性數(shù)據(jù)并不容易,并且視頻數(shù)據(jù)的存儲(chǔ)和讀取有一定代價(jià);
其二,避免參數(shù)正則化方案中,模型受少數(shù)參數(shù)主導(dǎo)的問題;
其三,不采用模型增長(zhǎng),維護(hù)同一個(gè)模型結(jié)構(gòu),從而在不同的訓(xùn)練階段,都可以復(fù)用相同的部署方案。
基于此,GPE使用了高光原型學(xué)習(xí)的方案,在視頻幀級(jí)別上做二分類任務(wù),判斷視頻幀屬于高光還是非高光。
首先,GPE使用ConvNeXt網(wǎng)絡(luò)提取視頻幀的特征,并利用編碼器(encoder)對(duì)這些特征做時(shí)序上的融合,獲得上下文的信息。經(jīng)過時(shí)序融合后的特征計(jì)算到高光原型點(diǎn)和非高光原型點(diǎn)的距離,這些距離會(huì)使用Softmax函數(shù)映射成概率的形式,用于做二分類任務(wù)。

△?圖片2
GPE緩解深度學(xué)習(xí)模型的災(zāi)難性遺忘,是通過限制不同訓(xùn)練階段之間原型點(diǎn)的變化實(shí)現(xiàn)的。分別用θ,?,π表示CNN的參數(shù),編碼器的參數(shù),以及可學(xué)習(xí)的高光/非高光原型點(diǎn)。GPE的優(yōu)化目標(biāo)為:在相鄰訓(xùn)練階段之間,π的變化量不超過γ的前提下,最小化高光和非高光的分類損失。對(duì)于帶約束的優(yōu)化問題,我們使用拉格朗日方法求解,其中拉格朗日對(duì)偶表達(dá)式如下:

使用啟發(fā)式思想,在約束條件成立時(shí),減小懲罰因子λ是拉格朗日乘子,還需要保證其大于零。在訓(xùn)練過程中,利用每個(gè)批次的訓(xùn)練數(shù)據(jù),交替優(yōu)化上述參數(shù)即可:

基準(zhǔn)測(cè)試結(jié)果
GPE在LiveFood上取得了良好的高光檢測(cè)性能,可以對(duì)初始訓(xùn)練階段中的美食高光產(chǎn)生較高的響應(yīng)。參與對(duì)比的方案包括:性能下界(Lb),性能上界(Ub),SI,oEWC,ER,DER等。
GPE有兩個(gè)變式,其Mf指的是動(dòng)態(tài)增加原型點(diǎn)的數(shù)量,在每個(gè)訓(xùn)練階段只約束原來原型點(diǎn)的變化,新增的原型點(diǎn)可以自由學(xué)習(xí)。帶星號(hào)(*)的方法使用了隨機(jī)數(shù)據(jù)回放。表格2展示了在不同訓(xùn)練階段,GPE檢測(cè)美食高光的能力(mAP)。

△表格2
美食高光檢測(cè)可視化。在訓(xùn)練過程中,域的出現(xiàn)順序?yàn)椋簆resentation,eating,ingredients,以及最后的cooking。圖片3展示了GPE在第四階段訓(xùn)練完成后(T4,橙色),仍然對(duì)第一階段的域presentation有著很高的響應(yīng),超過了DER在第四階段對(duì)presentation的響應(yīng)程度。

△圖片3
高光原型點(diǎn)與非高光原型點(diǎn)可視化。圖片4展示了在不同訓(xùn)練階段的高光原型點(diǎn)以及非高光原型點(diǎn)的分布狀態(tài)。考慮到非高光片段大多為無意義片段,特征相似,因此在不同的訓(xùn)練階段,只增加高光原型點(diǎn)(每個(gè)訓(xùn)練階段增加80個(gè)),不增加非高光原型點(diǎn)。圖片4展示了,即使隨著訓(xùn)練階段的不斷增加,高光原型點(diǎn)與非高光原型點(diǎn)還是能夠被模型很好的分開,這也表明了GPE有著較強(qiáng)的抵抗遺忘的能力。

△圖片4
項(xiàng)目鏈接: https://foreverps.github.io/
- “智元機(jī)器人收購A股上市公司是創(chuàng)新需要…現(xiàn)金流能撐三年”2025-08-22
- 稚暉君新大招:機(jī)器人二次開發(fā)0門檻了!2025-08-22
- 賣酒的茅臺(tái)要學(xué)AI了!和奔馳麥當(dāng)勞一起拜師百度2025-08-17
- VLA進(jìn)化后降維打擊!雙手揀貨,漂移操作,還能批量化秀舞,太空艙直接開上街,被銀河通用卷到了2025-08-11