中國(guó)AI足球隊(duì)勇奪世界冠軍,騰訊出品
谷歌、英超曼城聯(lián)名舉辦
蕭簫 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
一記漂亮的長(zhǎng)傳,直接助攻射門(mén):
帶球連過(guò)兩人:
這樣高超的線上足球技巧,并非上手兩三年的“老玩家”做出的,而是僅僅練習(xí)了一個(gè)月的騰訊AI“絕悟”。
現(xiàn)在,戰(zhàn)勝大部分榮耀玩家后,AI“絕悟”又化名WeKick,去試手了一把谷歌舉辦的線上世界足球賽。
沒(méi)想到,輕輕松松就拿了個(gè)冠軍回來(lái):
嗯?打完王者,還能踢FIFA?
沒(méi)錯(cuò),利用遷移學(xué)習(xí),就能讓“足球版絕悟”WeKick,快速掌握踢足球的技巧。
但要想踢出多種策略、穩(wěn)定掌握這些策略,還得采用不同的方法。
各種風(fēng)格小模型,共同訓(xùn)練主模型
從“絕悟”完全體遷移過(guò)來(lái)的WeKick,針對(duì)這場(chǎng)足球比賽,進(jìn)行了策略性的調(diào)整。
與常規(guī)足球游戲的“控制整只球隊(duì)”不同,這場(chǎng)足球比賽中,每個(gè)隊(duì)伍需要控制其中1個(gè)智能體,與游戲中的10個(gè)內(nèi)置智能體組成球隊(duì)(11vs11賽制)。
也就是說(shuō),每個(gè)智能體“球員”,都需要學(xué)習(xí)如何在隊(duì)友之間傳球,并克服對(duì)手的防守以進(jìn)球。
然而采用強(qiáng)化學(xué)習(xí),從0開(kāi)始訓(xùn)練一個(gè)會(huì)踢球的AI,相當(dāng)困難。
在王者榮耀等MOBA游戲中,智能體可以學(xué)習(xí)的信號(hào)非常多,包括實(shí)時(shí)經(jīng)濟(jì)、血量、經(jīng)驗(yàn)等。
但足球游戲的激勵(lì)非常稀疏,幾乎只有“進(jìn)球”這一項(xiàng)獎(jiǎng)勵(lì)機(jī)制。
稀疏激勵(lì),正是強(qiáng)化學(xué)習(xí)的難題之一。
為了突破這一難關(guān),“絕悟”WeKick版本采用了3點(diǎn)創(chuàng)新,來(lái)對(duì)模型進(jìn)行訓(xùn)練。
首先,是自博弈?(Self-Play)強(qiáng)化學(xué)習(xí)。
WeKick部署了一種異步分布式強(qiáng)化學(xué)習(xí)框架,雖然會(huì)犧牲訓(xùn)練時(shí)的部分實(shí)時(shí)性能,但能夠提升其靈活性,支持在訓(xùn)練過(guò)程中按需調(diào)整計(jì)算資源。
此外,WeKick還結(jié)合生成對(duì)抗模擬學(xué)習(xí)(GAIL)與人工設(shè)計(jì)獎(jiǎng)勵(lì),采用了生成對(duì)抗訓(xùn)練機(jī)制。
這種機(jī)制能夠模擬專(zhuān)家行為的狀態(tài)和動(dòng)作分布,使得WeKick能夠從其他球隊(duì)中學(xué)習(xí)經(jīng)驗(yàn)。
之后,將GAIL訓(xùn)練的模型作為固定對(duì)手,再一次進(jìn)行自博弈訓(xùn)練,就能提升策略的穩(wěn)健性。
這種方法雖然不錯(cuò),卻存在一個(gè)缺陷。
訓(xùn)練后,模型容易收斂成單一風(fēng)格,容易發(fā)生因“沒(méi)見(jiàn)過(guò)某種打法”而表現(xiàn)失常、導(dǎo)致成績(jī)不佳的情況。
因此,WeKick的團(tuán)隊(duì)想出了一種方法:采用多風(fēng)格強(qiáng)化學(xué)習(xí)的訓(xùn)練方案,讓智能體“球員”們先專(zhuān)精一個(gè)領(lǐng)域,再進(jìn)行配合。
也就是說(shuō),先訓(xùn)練一群具備一定競(jìng)技能力的基礎(chǔ)模型,每個(gè)模型分別掌握運(yùn)球過(guò)人、傳球配合、射門(mén)得分……
然后,基于基礎(chǔ)模型,訓(xùn)練出多種風(fēng)格的各個(gè)模型,過(guò)程中會(huì)定期加入主模型作為選手,避免模型堅(jiān)持原來(lái)的風(fēng)格。
最后,將這些模型集合起來(lái),訓(xùn)練一個(gè)主模型,期間除了主模型以歷史模型為對(duì)手,還會(huì)拿所有風(fēng)格化基礎(chǔ)模型當(dāng)對(duì)手,確保主模型能應(yīng)對(duì)各種風(fēng)格的踢球方式。
通過(guò)這3種方式訓(xùn)練出來(lái)的模型WeKick,既具有豐富的足球經(jīng)驗(yàn),也能準(zhǔn)確地對(duì)抗各種不同風(fēng)格的比賽技巧。
谷歌+英超,線上足球賽
這個(gè)線上足球賽Google Football,有點(diǎn)像是一款A(yù)I操作的足球游戲,由谷歌和英超曼城俱樂(lè)部在Kaggle上聯(lián)合舉辦。
比賽采用谷歌強(qiáng)化學(xué)習(xí)環(huán)境,基于開(kāi)源足球游戲Gameplay Football開(kāi)發(fā),共有來(lái)自世界頂級(jí)院校、研究機(jī)構(gòu)的1100多支隊(duì)伍參與挑戰(zhàn)。
與足球賽的比賽規(guī)則一致,線上足球賽同樣需要遵守越位、黃牌、紅牌等規(guī)則。
而在谷歌提供的足球環(huán)境中,智能體“球員”則可以做出短傳、長(zhǎng)傳、運(yùn)球、射門(mén)等動(dòng)作。
在經(jīng)過(guò)幾輪廝殺后,WeKick最終以1785.8的總分,在這場(chǎng)競(jìng)技中以顯著優(yōu)勢(shì)勝出。
不過(guò),這也并非“絕悟”第一次參加谷歌舉辦的足球賽。
在5v5的多智能體天梯賽Google Research Football League中,“絕悟”同樣取得了第一名的成績(jī)。
事實(shí)上,在游戲AI上一路向前的“絕悟”,已經(jīng)歷了3次進(jìn)化。
從最初攻克Atari游戲開(kāi)始,到后來(lái)的圍棋AI“絕藝”,再到包括王者榮耀在內(nèi)的MOBA游戲AI“絕悟”,和如今的足球游戲AI“WeKick”,這一深度強(qiáng)化學(xué)習(xí)智能體正變得更復(fù)雜。
騰訊AI Lab表示,它們的目標(biāo)是向通用人工智能(AGI)不斷邁進(jìn)。
整體訓(xùn)練框架:
https://arxiv.org/abs/1912.09729
Kaggle足球賽排行榜:
https://www.kaggle.com/c/google-football/leaderboard