花最少的錢,訓(xùn)超6的機器人:谷歌大腦推出機器人強化學(xué)習(xí)平臺,硬件代碼全開源
魚羊 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
想要在現(xiàn)實世界的機器人身上探索強化學(xué)習(xí)(RL),并非易事。
首先,你得擁有類似這樣的機器人平臺:
而像這樣的一只PR2,售價高達40萬美元(約合人民幣286萬元)。
這就足以讓很多剛剛起步,或者正想涉足RL/機器人學(xué)研究的小型實驗室望而卻步了。
不過現(xiàn)在,谷歌正在試圖讓這件事變得更簡單,更便宜。
比如這樣一只三指機器人:
價格僅3500美元(約合人民幣2.5萬元)。
還有這樣一只四足機器人:
價格4200美元(約合人民幣3萬元)。
并且,還有相應(yīng)的開源代碼,和精心設(shè)計的基準測試作為配套。
這就是谷歌的ROBEL基準。這項研究登上了CoRL 2019。
ROBEL
ROBEL由兩只機器人組成,適用于不同的強化學(xué)習(xí)研究任務(wù)。
三指手形機器人,名為D’Claw,擅長學(xué)習(xí)靈巧操作任務(wù)。
D’Claw執(zhí)行任務(wù)的過程中有三種常見的操縱行為。
姿勢,適應(yīng)不同環(huán)境的形狀。
旋轉(zhuǎn),將物體旋轉(zhuǎn)到指定的角度。
以及擰緊。
四足機器人,名叫D’Kitty,是只小貓咪,擅長學(xué)習(xí)敏捷移動。
它的三種基準測試動作,是站立,定向和行走。
機器人的設(shè)計都基于現(xiàn)成的組件和常用的原型制作工具(3D打印或激光切割),模塊化,易于組裝,易于維護。
即使你對硬件并不在行,也僅需要幾個小時的時間,就能構(gòu)建完成。
ROBEL還為所有這些基準測試任務(wù)提供了模擬器,有助于研究人員進行算法開發(fā)和快速原型設(shè)計。
可復(fù)現(xiàn),很魯棒
聽上去便宜好用的ROBEL,到底靠不靠譜呢?
迄今為止,谷歌已經(jīng)對其進行了長達14000多個小時的訓(xùn)練。
實驗證明,ROBEL能夠勝任多種機器學(xué)習(xí)算法。
并且,兩個不同的實驗室分別對ROBEL進行了“試用”。僅使用ROBEL的設(shè)計文件和裝配說明,兩個實驗室都成功復(fù)現(xiàn)了ROBEL的兩個硬件平臺。
兩個實驗室都對自己組裝起來的ROBEL進行了基準任務(wù)測試。
兩條訓(xùn)練曲線幾乎重合。也就是說,在不同地點建造的兩只機器人,不僅表現(xiàn)出了相似的訓(xùn)練進度,并且最終都收斂到了同一性能水準。
還真是便宜又好貨啊。
傳送門
博客地址:
https://ai.googleblog.com/2019/10/robel-robotics-benchmarks-for-learning.html
ROBEL項目地址:
https://sites.google.com/view/roboticsbenchmarks/platforms
論文地址:
https://arxiv.org/abs/1909.11639