中國AI足球隊勇奪世界冠軍,騰訊出品
谷歌、英超曼城聯(lián)名舉辦
蕭簫 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
一記漂亮的長傳,直接助攻射門:
帶球連過兩人:
這樣高超的線上足球技巧,并非上手兩三年的“老玩家”做出的,而是僅僅練習(xí)了一個月的騰訊AI“絕悟”。
現(xiàn)在,戰(zhàn)勝大部分榮耀玩家后,AI“絕悟”又化名WeKick,去試手了一把谷歌舉辦的線上世界足球賽。
沒想到,輕輕松松就拿了個冠軍回來:
嗯?打完王者,還能踢FIFA?
沒錯,利用遷移學(xué)習(xí),就能讓“足球版絕悟”WeKick,快速掌握踢足球的技巧。
但要想踢出多種策略、穩(wěn)定掌握這些策略,還得采用不同的方法。
各種風(fēng)格小模型,共同訓(xùn)練主模型
從“絕悟”完全體遷移過來的WeKick,針對這場足球比賽,進行了策略性的調(diào)整。
與常規(guī)足球游戲的“控制整只球隊”不同,這場足球比賽中,每個隊伍需要控制其中1個智能體,與游戲中的10個內(nèi)置智能體組成球隊(11vs11賽制)。
也就是說,每個智能體“球員”,都需要學(xué)習(xí)如何在隊友之間傳球,并克服對手的防守以進球。
然而采用強化學(xué)習(xí),從0開始訓(xùn)練一個會踢球的AI,相當(dāng)困難。
在王者榮耀等MOBA游戲中,智能體可以學(xué)習(xí)的信號非常多,包括實時經(jīng)濟、血量、經(jīng)驗等。
但足球游戲的激勵非常稀疏,幾乎只有“進球”這一項獎勵機制。
稀疏激勵,正是強化學(xué)習(xí)的難題之一。
為了突破這一難關(guān),“絕悟”WeKick版本采用了3點創(chuàng)新,來對模型進行訓(xùn)練。
首先,是自博弈?(Self-Play)強化學(xué)習(xí)。
WeKick部署了一種異步分布式強化學(xué)習(xí)框架,雖然會犧牲訓(xùn)練時的部分實時性能,但能夠提升其靈活性,支持在訓(xùn)練過程中按需調(diào)整計算資源。
此外,WeKick還結(jié)合生成對抗模擬學(xué)習(xí)(GAIL)與人工設(shè)計獎勵,采用了生成對抗訓(xùn)練機制。
這種機制能夠模擬專家行為的狀態(tài)和動作分布,使得WeKick能夠從其他球隊中學(xué)習(xí)經(jīng)驗。
之后,將GAIL訓(xùn)練的模型作為固定對手,再一次進行自博弈訓(xùn)練,就能提升策略的穩(wěn)健性。
這種方法雖然不錯,卻存在一個缺陷。
訓(xùn)練后,模型容易收斂成單一風(fēng)格,容易發(fā)生因“沒見過某種打法”而表現(xiàn)失常、導(dǎo)致成績不佳的情況。
因此,WeKick的團隊想出了一種方法:采用多風(fēng)格強化學(xué)習(xí)的訓(xùn)練方案,讓智能體“球員”們先專精一個領(lǐng)域,再進行配合。
也就是說,先訓(xùn)練一群具備一定競技能力的基礎(chǔ)模型,每個模型分別掌握運球過人、傳球配合、射門得分……
然后,基于基礎(chǔ)模型,訓(xùn)練出多種風(fēng)格的各個模型,過程中會定期加入主模型作為選手,避免模型堅持原來的風(fēng)格。
最后,將這些模型集合起來,訓(xùn)練一個主模型,期間除了主模型以歷史模型為對手,還會拿所有風(fēng)格化基礎(chǔ)模型當(dāng)對手,確保主模型能應(yīng)對各種風(fēng)格的踢球方式。
通過這3種方式訓(xùn)練出來的模型WeKick,既具有豐富的足球經(jīng)驗,也能準(zhǔn)確地對抗各種不同風(fēng)格的比賽技巧。
谷歌+英超,線上足球賽
這個線上足球賽Google Football,有點像是一款A(yù)I操作的足球游戲,由谷歌和英超曼城俱樂部在Kaggle上聯(lián)合舉辦。
比賽采用谷歌強化學(xué)習(xí)環(huán)境,基于開源足球游戲Gameplay Football開發(fā),共有來自世界頂級院校、研究機構(gòu)的1100多支隊伍參與挑戰(zhàn)。
與足球賽的比賽規(guī)則一致,線上足球賽同樣需要遵守越位、黃牌、紅牌等規(guī)則。
而在谷歌提供的足球環(huán)境中,智能體“球員”則可以做出短傳、長傳、運球、射門等動作。
在經(jīng)過幾輪廝殺后,WeKick最終以1785.8的總分,在這場競技中以顯著優(yōu)勢勝出。
不過,這也并非“絕悟”第一次參加谷歌舉辦的足球賽。
在5v5的多智能體天梯賽Google Research Football League中,“絕悟”同樣取得了第一名的成績。
事實上,在游戲AI上一路向前的“絕悟”,已經(jīng)歷了3次進化。
從最初攻克Atari游戲開始,到后來的圍棋AI“絕藝”,再到包括王者榮耀在內(nèi)的MOBA游戲AI“絕悟”,和如今的足球游戲AI“WeKick”,這一深度強化學(xué)習(xí)智能體正變得更復(fù)雜。
騰訊AI Lab表示,它們的目標(biāo)是向通用人工智能(AGI)不斷邁進。
整體訓(xùn)練框架:
https://arxiv.org/abs/1912.09729
Kaggle足球賽排行榜:
https://www.kaggle.com/c/google-football/leaderboard