25個視頻神同步,還能給視頻聲音移花接木,谷歌開源最新自監(jiān)督算法
讓AI理解視頻里的每一幀
曉查 發(fā)自 凹非寺
量子位 出品 | 公眾號 QbitAI
對于AI來說,識別視頻里發(fā)生了什么已經(jīng)不是難事,訓練它的方法就是用帶有標簽的視頻數(shù)據(jù)集進行監(jiān)督學習。
比如我們給AI看帶有“棒球”標簽的視頻,然后它就能知道這是什么運動。但這是遠遠不夠的,我們希望它不僅能知道這是什么運動,還希望它能預測球何時被投出去。
可是要讓AI理解視頻里每一幀的內(nèi)容太難了,因為你不可能逐幀對視頻做標記,用監(jiān)督學習的方法是不切實際的。
所以谷歌的研究人員提出了一種時間周期一致性學習(TCC)的自監(jiān)督學習算法,可以在一段連續(xù)過程中,找到每一幀和某個具體動作的對應關系。
目前,谷歌已經(jīng)開源了TCC的代碼,希望讓用戶能夠在自己開發(fā)的程序中用上這種最新算法。
TCC原理
當一個人想去倒一杯飲料時,他會去伸手去拿茶壺、酒瓶或水杯。這是一種按特定順序發(fā)生的事件。相同類型的視頻都會有類似的時間先后對應關系。
關鍵幀對于所有倒水視頻是相似的,并且存在許多變化因素,例如視點、物體大小,容器形狀或倒水速度的差異。
TCC利用周期一致性原則在相同動作的視頻中找到這種對應關系,通過對齊視頻來學習有用的視覺表征。
首先,訓練算法通過單獨提取每個幀來產(chǎn)生視頻幀的嵌入。然后選擇用于TCC學習的兩個視頻,使用其中一個作為參考視頻,用它的幀嵌入來識別來自第二個視頻相同動作的最近幀。
隨著訓練過程的進行,嵌入器對在動作的上下文中產(chǎn)生對每個視頻幀的語義理解,改善和降低了周期一致性損失。
在下圖中,谷歌展示了使用TCC訓練的模型,該模型來自賓夕法尼亞動作數(shù)據(jù)集中進行深蹲練習的人的視頻。
圖中左側(cè)的每個點對應于幀嵌入,點的位置隨著當前視頻幀動作而變化。盡管在姿勢、光照、身體等方面存在許多差異,TCC還是能在不提供標注的情況將將兩個視頻同步起來。
谷歌還將TCC與其它有監(jiān)督學習算法進行對比。在識別高爾夫揮桿和網(wǎng)球發(fā)球這個兩個動作時,有監(jiān)督學習需要50個標記樣本才能達到和TCC一樣的準確度,而TCC在僅有一個標記樣本的情況下就已經(jīng)有很高準確度了。
實際應用
TCC可以在只有一個標記視頻的情況下,將其它同類視頻的動作階段進行分類,并且可以用參考視頻一次對齊多個剪輯視頻,做到“神同步”。
下面就是TCC將25個棒球投手視頻的動作完全同步到一致的例子:
此外,TCC還可以將與一個視頻中的任何幀相關聯(lián)的元數(shù)據(jù)傳輸?shù)搅硪灰曨l中。比如將一個倒水視頻中的聲音傳輸?shù)搅硪粋€視頻中,做到音畫同步,聽起來毫無違和感。
博客地址:
https://ai.googleblog.com/2019/08/video-understanding-using-temporal.html
源代碼地址:
https://github.com/google-research/google-research/tree/master/tcc
- 腦機接口走向現(xiàn)實,11張PPT看懂中國腦機接口產(chǎn)業(yè)現(xiàn)狀|量子位智庫2021-08-10
- 張朝陽開課手推E=mc2,李永樂現(xiàn)場狂做筆記2022-03-11
- 阿里數(shù)學競賽可以報名了!獎金增加到400萬元,題目面向大眾公開征集2022-03-14
- 英偉達遭黑客最后通牒:今天必須開源GPU驅(qū)動,否則公布1TB機密數(shù)據(jù)2022-03-05