銅靈 發(fā)自 凹非寺
量子位 出品 | 公眾號 QbitAI
想搞強化學習,但算力門檻讓不少人望而卻步。
想想DeepMind訓練的通用棋類AI AlphaZero,碾壓一票同類選手,但堆砌了實驗室里5064個TPU的算力。谷歌財大氣粗,但小實驗室就無法復制了。
沒有那么大算力,也可以進行強化學習。
這一次,“專注強化學習一百年”的DeepMind又出手了,推出了一個小規(guī)模的強化學習環(huán)境,適合算力有限的實驗室。
這個強化學習環(huán)境名為Spriteworld的強化學習環(huán)境,由二維簡單形狀組成的環(huán)境,可以進行簡單移動。
DeepMind表示,別看這個場景簡單,但能為多個物體場景中提供盡可能多的靈活性,同時保留盡可能簡單的界面。
一經發(fā)出,DeepMind推特就收獲了400贊,網友大呼:Fascinating(太吸引人了)~
精靈世界
Spriteworld(精靈世界)是一個基于Python的強化學習環(huán)境,里面各種不同的形狀都是一個精靈,可以在整個界面中自由移動。
這是一個多維度環(huán)境,形狀的位置、大小、顏色、角度和速度都可以不斷變化,自由調節(jié)。
這個世界里沒有物理引擎,所以默認情況下,里面的“精靈”們會互相重疊,但不會交互或是碰撞。
研究人員演示了環(huán)境中可操作的3種任務,比如這個目標尋找任務,智能體需要將目標精靈,也就是綠色正方形方塊帶到環(huán)境中心。
比如聚類任務,智能體需要根據自身的顏色排列成簇。
在排列任務中,智能體必須依據其自身顏色將目標精靈放置到目標位置,其中顏色與位置有一定的關聯(lián)關系。
DeepMind表示,可以通過動作空間引入各個精靈之間的交互,并且動作空間中的每個時間步可以同步給所有精靈。
舉個例子,比如DiscreteEmbodied動作空間實現(xiàn)了一種基本的物理形式,一個智能體可以攜帶其他智能體。
DeepMind強化學習資源集合
如果你想要研究強化學習,那么DeepMind一定是你不可錯過的領路人。
這個“專注強化學習一百年”的研究機構,已經開放了大量的強化學習研究資源。
開源強化學習框架多巴胺(Dopamine),基于基于TensorFlow,代碼緊湊,簡潔可復現(xiàn)。
博客:
https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html
代碼:
https://github.com/google/dopamine/tree/master/docs#downloads
開源強化學習庫松露(TRFL),模塊化,強調靈活度:如果把造智能體想象成搭積木,許多關鍵的、常用的木塊都在這里集合了。
并且?guī)炖锩娴慕M件,雖然來源各不相同,但都經過嚴密測試,因而相對可靠;并且只要一個API,對開發(fā)者比較友好。
GitHub地址:
https://github.com/deepmind/trfl/
開源強化學習研究環(huán)境Control Suite,設計了一組有著標準化結構、可解釋獎勵的連續(xù)控制任務,還為強化學習Agent提供一組性能測試指標。
這些任務基于MoJoCo物理引擎,所用的語言是Python。DeepMind在GitHub上放出的源代碼中,就包含基于MoJoCo的Python強化學習環(huán)境,以及為MoJoCo提供Python綁定的軟件庫。
論文:
https://arxiv.org/pdf/1801.00690.pdf
代碼:
https://github.com/deepmind/dm_control
開源分布式強化學習架構IMPALA,讓一個Agent學會多種技能。
IMPALA的靈感來自于熱門的A3C架構,后者使用多個分布式actor來學習agent的參數(shù)。在類似這樣的模型中,每個actor都使用策略參數(shù)的一個副本,在環(huán)境中操作。
代碼:
https://github.com/deepmind/lab/tree/master/game_scripts/levels/contributed/dmlab30
開源強化學習訓練環(huán)境Google Research Football,智能體可以在這個宛若FIFA的世界里自由踢球,學到更多踢球技巧。
用足球進行強化學習訓練,對AI來說更有挑戰(zhàn)性,不僅要能控球,還得搞懂傳球、角球這些概念,知道什么時候會犯規(guī)吃紅牌黃牌,同時訓練出足夠機智的策略。
論文:
https://github.com/google-research/football/blob/master/paper.pdf?raw=True
代碼:
https://github.com/google-research/football
傳送門
Github地址:
https://github.com/deepmind/spriteworld
推特介紹:
https://twitter.com/DeepMindAI/status/1163478904092471296
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節(jié),請在量子位公眾號(QbitAI)對話界面,回復“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
?’?’ ? 追蹤AI技術和產品新動態(tài)