從“小”培養(yǎng)AI安全意識(shí):OpenAI開源最新強(qiáng)化學(xué)習(xí)訓(xùn)練工具,安全約束自由定制,開箱即用
魚羊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
強(qiáng)化學(xué)習(xí)(RL)很強(qiáng),能訓(xùn)練出會(huì)用雞賊策略的星際宗師級(jí)玩家。
△AlphaStar打出cannon rush
但強(qiáng)化學(xué)習(xí)也很危險(xiǎn),因?yàn)樗奶茁肥?strong>無限制探索,常常會(huì)出現(xiàn)一些瘋狂危險(xiǎn)的嘗試。
但在現(xiàn)實(shí)環(huán)境中,有些試錯(cuò)是不可接受的。沒有人希望看到,AI通過反復(fù)撞車來學(xué)會(huì)避免事故發(fā)生。
要讓強(qiáng)化學(xué)習(xí)從虛擬環(huán)境走向現(xiàn)實(shí)生活,強(qiáng)化學(xué)習(xí)界的高玩OpenAI說:安全意識(shí)要從“小”抓起。
于是,他們開源了Safety Gym。
這是一套具有安全約束的訓(xùn)練環(huán)境和工具,能夠評(píng)估強(qiáng)化學(xué)習(xí)智能體在訓(xùn)練過程中是否遵循安全原則,把AI在訓(xùn)練過程中產(chǎn)生的奇奇怪怪的想法都“扼殺”在搖籃里。
也就是說,在訓(xùn)練過程中,就約束AI,讓它們明白,有些禁忌是不可觸犯的。
Safety Gym
想要培養(yǎng)安全意識(shí),就得給出安全規(guī)范。而在強(qiáng)化學(xué)習(xí)中,能做到這一點(diǎn)的就是約束強(qiáng)化學(xué)習(xí)(Constrained RL)。
約束強(qiáng)化學(xué)習(xí),除了像普通的強(qiáng)化學(xué)習(xí)那樣最大化獎(jiǎng)勵(lì)功能,還添加了約束智能體的成本函數(shù)(cost function)。
以自動(dòng)駕駛舉例,AI的任務(wù)是盡快從A點(diǎn)到達(dá)B點(diǎn),所用時(shí)間越短,獲得的獎(jiǎng)勵(lì)就最大。
這就導(dǎo)致,只要獎(jiǎng)勵(lì)夠高,撞不撞車什么的會(huì)完全被AI忽視。
而在約束強(qiáng)化學(xué)習(xí)中,增加了一重懲罰:如果出現(xiàn)不可接受的危險(xiǎn)行為,就懲罰智能體,直到它不再這么干為止。
而Safety Gym的誕生,就是為了方面約束強(qiáng)化學(xué)習(xí)的安全研究。
在Safety Gym環(huán)境中,預(yù)設(shè)了三種機(jī)器人:
點(diǎn)(Point):一個(gè)被約束在二維平面上的簡(jiǎn)單機(jī)器人,能夠轉(zhuǎn)彎、前進(jìn)或后退。
車(Car):有兩個(gè)獨(dú)立驅(qū)動(dòng)的平行車輪和一個(gè)自由滾動(dòng)的后輪。車在轉(zhuǎn)彎、向前或向后移動(dòng)時(shí),需要協(xié)調(diào)兩個(gè)驅(qū)動(dòng)器。
狗狗(Doggo):一只四足機(jī)器人,每條腿跟軀干接觸的位置都有兩個(gè)控件,分別控制相對(duì)于軀干的方位角和仰角;膝蓋上也有一個(gè)控制角度的控制器。
以及三個(gè)主要任務(wù),每個(gè)任務(wù)都有兩個(gè)難度級(jí)別:
目標(biāo)任務(wù)(Goal):讓機(jī)器人移動(dòng)到一系列目標(biāo)位置。
按鈕任務(wù)(Button):讓機(jī)器人按一系列目標(biāo)按鈕。
△在有干擾的情況下按按鈕
推箱子任務(wù)(Push):讓機(jī)器人把箱子推到一系列目標(biāo)位置。
另外,在Safety Gym中還有五種主要的安全約束元素:危險(xiǎn)區(qū)域,易碎花瓶,按鈕,柱子和小怪獸。
這些元素可以自由組合,用戶可以在訓(xùn)練環(huán)境中添加任意數(shù)量的任意元素,并設(shè)置針對(duì)性的約束條件。
每個(gè)時(shí)間步長(zhǎng),環(huán)境都會(huì)為每一種不安全元素提供單獨(dú)的成本信號(hào),并提供反應(yīng)整體的總成本信號(hào)。
與現(xiàn)有訓(xùn)練環(huán)境相比,Safety Gym環(huán)境更豐富,任務(wù)更難且更復(fù)雜。
基準(zhǔn)測(cè)試
為了讓Safety Gym變成一個(gè)開箱即用的工具,OpenAI還在其基礎(chǔ)上提出了一種標(biāo)準(zhǔn)化方法,評(píng)估了一系列標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)算法和約束強(qiáng)化學(xué)習(xí)算法:PPO,TRPO,PPO和TRPO的拉格朗日罰分版,以及約束策略優(yōu)化(CPO)。
△基準(zhǔn)環(huán)境
結(jié)果表明:在Safety Gym里,最簡(jiǎn)單的任務(wù)易于解決,并且可以快速迭代。而最困難的任務(wù),對(duì)當(dāng)前的技術(shù)而言還是頗具挑戰(zhàn)性。
OpenAI希望,未來,Safety Gym能被集成到開發(fā)人員用來測(cè)試系統(tǒng)的評(píng)估方案中,成為安全標(biāo)準(zhǔn)。
傳送門
博客地址:
https://openai.com/blog/safety-gym/
論文地址:
https://d4mucfpksywv.cloudfront.net/safexp-short.pdf
GitHub項(xiàng)目地址:
https://github.com/openai/safety-gym
—?完?—