郭一璞 發(fā)自 北四環(huán)
量子位 報(bào)道 | 公眾號(hào) QbitAI
把超級(jí)馬里奧玩成下面這樣,算什么水平?
能流暢的行走在妖魔鬼怪之間
能掐準(zhǔn)食人花出現(xiàn)的時(shí)機(jī)
能靈巧的躲過(guò)燒火棍
能克服各種變態(tài)的地形
從1-1到7-1,只要一條命,就能全部通過(guò),而且操作幾乎沒(méi)有遲疑,如行云流水一般。
別人玩得這么溜,你是不是只能被小烏龜、噴子彈的小怪物、上上下下的地形虐?
不過(guò),這個(gè)玩游戲的不是人,是一只通過(guò)深度強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)的AI。
異步優(yōu)勢(shì)演員評(píng)論家算法
這個(gè)算法已經(jīng)開源,是2016年的論文《Asynchronous Methods for Deep Reinforcement Learning》中提到的算法的實(shí)現(xiàn)。
異步一步Q-Learning:每個(gè)線程與自己的環(huán)境副本交互,在每一步中計(jì)算,用共享的漸變目標(biāo)網(wǎng)絡(luò)Q-Learning損失的梯度,就像DQN訓(xùn)練模型一樣。
異步多步Q-Learning:在正視圖中通過(guò)明確的計(jì)算多步返回來(lái)運(yùn)行,因?yàn)榛趧?dòng)量的方法反向傳播來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),用正視圖更容易一些。
異步優(yōu)勢(shì)演員評(píng)論家算法:這是超級(jí)馬里奧AI的核心。智能體中的兩個(gè)部分,分別扮演演員和評(píng)論家,負(fù)責(zé)創(chuàng)造和監(jiān)督。
和前面的異步多步Q-Learning一樣,演員和評(píng)論家在正視圖中運(yùn)行,用相同的多步返回組合來(lái)更新策略和價(jià)值函數(shù)。
演員就像一個(gè)小孩子一樣,會(huì)探索世界,做各種事情。
評(píng)論家則類似于前面小演員的爸爸媽媽,負(fù)責(zé)監(jiān)督演員的舉動(dòng),贊揚(yáng)他做的好的地方,批評(píng)他做的不好的地方,告訴自己孩子:你和其他演員(別人家的孩子)差在哪兒了。
因此,演員希望一直能獲得爸媽的贊揚(yáng),獲得積極的反饋,就會(huì)根據(jù)爸媽的贊揚(yáng)和批評(píng)不斷修正自己的行為。
而對(duì)于異步優(yōu)勢(shì)演員評(píng)論家算法而言,則是為小演員提供了一所“學(xué)?!?。如果小演員只在家里學(xué)習(xí),可能學(xué)到的東西更片面,而且學(xué)習(xí)速度也比較慢。在異步優(yōu)勢(shì)演員評(píng)論家算法這所學(xué)校里,有“老師”和“同學(xué)”能讓演員更快的學(xué)習(xí),學(xué)到正確的知識(shí)。
游戲達(dá)人Viet Nguyen
最后,公布這個(gè)算法實(shí)現(xiàn)的是GitHub用戶Viet Nguyen。
他是一名AI和機(jī)器人方向的碩士,畢業(yè)于慕尼黑工業(yè)大學(xué),主要研究自然語(yǔ)言處理和計(jì)算機(jī)視覺。
現(xiàn)在,他是德國(guó)手游公司Popcore的一名數(shù)據(jù)科學(xué)家。除了超級(jí)馬里奧,他還研究過(guò)用Deep-Q-Learning訓(xùn)練AI玩Flappy Bird。
傳送門
最后,這個(gè)項(xiàng)目已經(jīng)開源了,發(fā)布者公布了代碼和模型,針對(duì)超級(jí)馬里奧的每一關(guān)都單獨(dú)訓(xùn)練了模型,在RTX 2080上大概一關(guān)費(fèi)了6~10個(gè)小時(shí)。
開源代碼
https://github.com/vietnguyen91/Super-mario-bros-A3C-pytorch
論文原文
Asynchronous Methods for Deep Reinforcement Learning
Volodymyr Mnih, Adrià Puigdomènech Badia, Mehdi Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David Silver, Koray Kavukcuoglu
https://arxiv.org/abs/1602.01783
— 完 —
誠(chéng)摯招聘
量子位正在招募編輯/記者,工作地點(diǎn)在北京中關(guān)村。期待有才氣、有熱情的同學(xué)加入我們!相關(guān)細(xì)節(jié),請(qǐng)?jiān)诹孔游还娞?hào)(QbitAI)對(duì)話界面,回復(fù)“招聘”兩個(gè)字。
量子位 QbitAI · 頭條號(hào)簽約作者
?’?’ ? 追蹤AI技術(shù)和產(chǎn)品新動(dòng)態(tài)