DeepMind提出新型神經(jīng)網(wǎng)絡(luò)架構(gòu),用無監(jiān)督方法從視頻中提取關(guān)鍵點 | 論文
用無監(jiān)督的方法和寥寥數(shù)據(jù),就能提取出關(guān)鍵點,在沒有獎勵的情況下,還能進(jìn)行有效操控
銅靈 發(fā)自 凹非寺
量子位 出品 | 公眾號 QbitAI
提取關(guān)鍵點此前被視為需要大量數(shù)據(jù)才能完成的工作,但DeepMind的一項最新研究可不這么認(rèn)為。
DeepMind的新模型Transporter從原始視頻幀中學(xué)習(xí)以物體為中心的抽象表示,并能用簡單的算法生成控制策略和探索程序。
也就是說,用無監(jiān)督的方法和寥寥數(shù)據(jù),就能提取出關(guān)鍵點,在沒有獎勵的情況下,還能進(jìn)行有效操控。
效果如下:
軟件工程師@AwokeKnowing表示,DeepMind最后還嚴(yán)謹(jǐn)?shù)赜懻摿搜芯康木窒扌?,但這項在無監(jiān)督、沒有硬工程特征(hard-engineered features)環(huán)境下的研究,確實是一項開創(chuàng)性的研究。
新型Transporter架構(gòu)
在論文Unsupervised Learning of Object Keypoints for Perception and Control中,研究人員提出了一種名為Transporter的新型神經(jīng)網(wǎng)絡(luò)架構(gòu),可跨各種常用的強(qiáng)化學(xué)習(xí)環(huán)境學(xué)習(xí)物體關(guān)鍵點的狀態(tài)。
Transporter的架構(gòu)如下:
研究人員在論文中表示,這個模型通過利用物體的運動來發(fā)現(xiàn)關(guān)鍵點,將原視頻幀(xt)轉(zhuǎn)換成另一個目標(biāo)幀(xt’)。
這個學(xué)習(xí)過程分為三個階段。
在訓(xùn)練期間,空間特征圖Φ(xt)和Φ(xt’ )以及關(guān)鍵點坐標(biāo)Ψ(xt) 和Ψ(xt’) 利用卷積神經(jīng)網(wǎng)絡(luò)和斯坦福此前提出的PointNet進(jìn)行幀的預(yù)測,再次過程中,關(guān)鍵點的坐標(biāo)被轉(zhuǎn)換成高斯熱力圖(Gaussian heatmaps) HΨ(xt) 和HΨ(xt’)。
在transport期間,這個網(wǎng)絡(luò)執(zhí)行兩種操作:
一是原幀的特征在HΨ(xt)和HΨ(xt’)中被設(shè)置成了0,二是在源目標(biāo)圖像中的特征位置HΨ(xt’)被替換成了HΨ(xt)。
在最后的改進(jìn)階段,研究人員又完成了兩個任務(wù),分別是在原位置繪制缺失的特征,和清理目標(biāo)位置附近的圖像。
研究人員將這些提取的關(guān)鍵點進(jìn)行了可視化,并與T. Jakab和Y. Zhang等人此前的最先進(jìn)關(guān)鍵點提取方法進(jìn)行了效果對比:
T. Jakab等人研究:Unsupervised learning of object landmarks through conditional image generation.
地址:http://sina.lt/guuH
Y. Zhang等人研究:Unsupervised discovery of object landmarks as structural representations
地址:https://arxiv.org/abs/1804.04412
研究人員發(fā)現(xiàn),Transporter學(xué)習(xí)了更多的空間對齊關(guān)鍵點,對不同數(shù)量、大小和運動的物體都有很強(qiáng)的魯棒性。
使用學(xué)習(xí)的關(guān)鍵點作為狀態(tài)輸入,可在幾種雅達(dá)利環(huán)境中實現(xiàn)比最先進(jìn)的強(qiáng)化學(xué)習(xí)方法更好的策略,但只需要100k的環(huán)境交互。
DeepMind團(tuán)隊
這項研究來自DeepMind的Tejas Kulkarni, Ankush Gupta, Catalin Ionescu, Sebastian Borgeaud, Malcolm Reynolds,Andrew Zisserman和Volodymyr Mnih。
一作Tejas Kulkarni目前是DeepMind的高級研究科學(xué)家,此前在MIT攻讀博士,主要研究視覺運動、深度強(qiáng)化學(xué)習(xí)代理、以及智能體的語言。
多篇論文被CVPR 17、NIPS 17、ICML 18等頂會收錄。
傳送門
Unsupervised Learning of Object Keypoints for Perception and Control
https://arxiv.org/abs/1906.11883
https://twitter.com/deepmindai/status/1145677732115898368?s=21
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關(guān)村。期待有才氣、有熱情的同學(xué)加入我們!相關(guān)細(xì)節(jié),請在量子位公眾號(QbitAI)對話界面,回復(fù)“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
?’?’ ? 追蹤AI技術(shù)和產(chǎn)品新動態(tài)