向前、向后、橫著走,雙足機(jī)器人Cassie,靠深度強(qiáng)化學(xué)習(xí)學(xué)會(huì)了走路丨論文
郭一璞 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
深度強(qiáng)化學(xué)習(xí),可以用來學(xué)走路了。
Agility Robotics的雙足機(jī)器人Cassie,這個(gè)沒有上半身的機(jī)器人,就靠著深度強(qiáng)化學(xué)習(xí)學(xué)會(huì)了更靈活的使用自己身體的唯二器官:左腿,和右腿。
看,它可以正常的往前走。
還能大步快走,差點(diǎn)就跑起來了。
作為一個(gè)傳送帶運(yùn)動(dòng)愛好者,萬一踩到了傳送帶的邊緣也不會(huì)兩腳劈叉,而是穩(wěn)穩(wěn)的繼續(xù)前行。
甚至,倒著走也一樣穩(wěn)。
或者學(xué)習(xí)一下螃蟹,橫行霸道。
這種時(shí)候,不懷好意的人類就開始欺負(fù)它了,拿木棍戳它的小肚腩。
站的穩(wěn)穩(wěn)地,Cassie沒有一點(diǎn)點(diǎn)要倒下的意思。
既然戳肚子正前方?jīng)]有反應(yīng),那我們換個(gè)角度,戳肚子的側(cè)面,大概是“腰子”的位置。
稍稍歪了一下,但影響不大,Cassie該怎么走還是怎么走。
肚子看來干擾不了,那就干擾腳底,放一塊木板,絆倒它。
可惜如意算盤沒能實(shí)現(xiàn),Cassie一腳踩在木板上,稍微晃了晃,依然穩(wěn)步前行,甚至還回踩了一腳。
學(xué)走路進(jìn)行時(shí)
新的行走技能,要?dú)w功于加拿大不列顛哥倫比亞大學(xué)計(jì)算機(jī)系和俄勒岡州立大學(xué)動(dòng)力機(jī)器人實(shí)驗(yàn)室兩所機(jī)構(gòu)。
讓Cassie學(xué)會(huì)行走,需要用到強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)(Imitation Learning)。
強(qiáng)化學(xué)習(xí)解決馬爾可夫決策過程( Markov Decision Process, MDP)的最優(yōu)策略,需要用到策略梯度算法;而模仿學(xué)習(xí)則需要解決參數(shù)策略問題。
之后,需要用到關(guān)鍵算法DASS來搞定數(shù)據(jù)集。每次連續(xù)設(shè)計(jì)迭代時(shí)重新定義獎(jiǎng)勵(lì)函數(shù),用確定性行動(dòng)隨機(jī)狀態(tài)(Deterministic Action Stochastic State,DASS)元組來表征策略。
之后,將DASS于強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)結(jié)合在一起,為機(jī)器人設(shè)定策略。
現(xiàn)在需要在Cassie機(jī)器人上實(shí)驗(yàn)了。
Cassie雙足機(jī)器人身高大約1米,體重31千克,兩條腿上有復(fù)雜的傳動(dòng)機(jī)制,紅色箭頭都是主動(dòng)關(guān)節(jié),黃色的箭頭都是被動(dòng)關(guān)節(jié)。
需要在神經(jīng)網(wǎng)絡(luò)上進(jìn)行參數(shù)化策略優(yōu)化,這里用到了actor-critic算法和MuJoCo模擬器。
策略設(shè)計(jì)過程則是依靠四個(gè)基于追蹤的策略的起始點(diǎn)。 DASS樣本根據(jù)箭頭的方向,從一個(gè)策略傳遞到下一個(gè)策略。
實(shí)際操作中,需要先訓(xùn)練幾個(gè)初始策略,之后參考機(jī)器人的運(yùn)動(dòng)狀態(tài)和需要達(dá)到的運(yùn)動(dòng)速度進(jìn)行調(diào)整,這里只需要5~10k的小數(shù)據(jù)集就能實(shí)現(xiàn)變速行走策略。
最后,就可以讓機(jī)器人跑起來了。Cassie機(jī)器人需要和計(jì)算機(jī)聯(lián)網(wǎng),操作過程中研究者們用到了Ubuntu系統(tǒng)和PyTorch框架來執(zhí)行學(xué)習(xí)策略。
實(shí)驗(yàn)之后,可以看出使用更大的神經(jīng)網(wǎng)絡(luò),就可以更快的產(chǎn)出更穩(wěn)定的策略,比如圖中的藍(lán)色線條要明顯優(yōu)于紅色和綠色。
傳送門
最后,如果你需要了解更詳細(xì)的步驟,可以閱讀這項(xiàng)研究的論文。
論文:
Iterative Reinforcement Learning Based Design of Dynamic Locomotion Skills for Cassie
Zhaoming Xie, Patrick Clary, Jeremy Dao, Pedro Morais, Jonathan Hurst, Michiel van de Panne
https://arxiv.org/abs/1903.09537