讓AI小隊(duì)混戰(zhàn)跑毒經(jīng)商,還設(shè)“坦克獎(jiǎng)”,NeurIPS這比賽真不是打游戲?
還有2萬美元獎(jiǎng)金可拿
豐色 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
你敢信,機(jī)器學(xué)習(xí)頂會(huì)NeurIPS的正經(jīng)比賽,竟是讓你“打游戲”,還有錢拿的那種。
你要做的就是調(diào)教一支由8個(gè)AI組成的小隊(duì),讓它們在這樣一張地圖里學(xué)會(huì)“荒野求生”。
在這個(gè)過程中,其他15支同樣規(guī)模的隊(duì)伍會(huì)跟你的AI爭奪生存資源,所以還得會(huì)打架、搞裝備,甚至跑毒、經(jīng)商……
如果你的AI特別抗揍,可以爭奪單項(xiàng)獎(jiǎng)里的“坦克獎(jiǎng)”(手動(dòng)狗頭)。
如果你不想打打殺殺,還可以考慮走“經(jīng)濟(jì)路線”:比賽系統(tǒng)中專門添加了交易系統(tǒng),讓“小的們”專心搞錢(買賣裝備)也有機(jī)會(huì)贏得為鼓勵(lì)有趣策略涌現(xiàn)的“Gold Farmer獎(jiǎng)”。
你說你是新手?沒關(guān)系,可以先打人機(jī)、再打排位~
可以說,簡直和咱平常玩的游戲區(qū)別不是很大——只不過是用你自己親手寫的代碼來比劃。
當(dāng)然,不用擔(dān)心技術(shù)水平,只要會(huì)編程,都可以來試試,贏的方式有很多種。
至于獎(jiǎng)金,主辦方準(zhǔn)備了20000美元,前十六名都有份。
想試試?打起來打起來~
海量AI同臺(tái)大亂斗,看AI玩轉(zhuǎn)三十六計(jì)
這場比賽全稱為NeurIPS 2022-Neural MMO海量AI團(tuán)隊(duì)生存挑戰(zhàn)賽,主辦方是超參數(shù)科技、麻省理工學(xué)院、清華大學(xué)深圳國際研究生院,以及數(shù)據(jù)科學(xué)挑戰(zhàn)平臺(tái)AIcrowd。
正如其名,其“擂場”就來自于一個(gè)叫做Neural MMO的平臺(tái)。
該平臺(tái)是OpenAI于2019年發(fā)布的一個(gè)研究海量智能體策略的開源環(huán)境。
作者Joseph Suarez是MIT的一位博士生,設(shè)計(jì)靈感來自于大型多人在線角色扮演游戲(MMORPG)。
它支持大量玩家同時(shí)在持久(不重置)、廣闊的環(huán)境中競爭和對抗,且一塊桌面級CPU就能跑起來,是一個(gè)絕佳的強(qiáng)化學(xué)習(xí)訓(xùn)練場。
基于Neural MMO的挑戰(zhàn)賽面向全球AI技術(shù)從業(yè)者、研究者和愛好者。
只要你會(huì)編程就可以來玩一玩,當(dāng)然,會(huì)一點(diǎn)強(qiáng)化學(xué)習(xí)算法或者運(yùn)籌優(yōu)化、啟發(fā)式算法的東西就更好~
具體規(guī)則上,每位參賽選手需控制一支由8個(gè)智能體組成的團(tuán)隊(duì),在128×128的地圖上和其他15支隊(duì)伍展開自由對抗。
每個(gè)智能體只能看到15×15范圍內(nèi)的東西。
地圖上有16種基本元素:
用來喝的“水”、可以獲得食物的“森林”、可正常踩踏的“草地”、擋路的“石頭”、踩到會(huì)死的“巖漿”;
可以轉(zhuǎn)化為可存儲(chǔ)的食物資源“魚”和“蘑菇”,可以被制作成三種彈藥的“礦石”“水晶”“松樹” ;
以及可被采集的資源被采后會(huì)退化成的“灌木叢”,它會(huì)有一定概率重新生長回來;
等等。
每一步可以執(zhí)行很多動(dòng)作:移動(dòng)、選擇攻擊對象、選擇攻擊方式、使用背包里的某一個(gè)裝備、購買市場上的物品、售賣一個(gè)物品并對它自由出價(jià)(在固定范圍內(nèi))。
可發(fā)起的攻擊包括近戰(zhàn)攻擊、遠(yuǎn)程攻擊和魔法攻擊,都有對應(yīng)的武器和彈藥來提升武力值,也有防御護(hù)甲等裝備來提升自己的防御值。
比賽開始后,每支隊(duì)伍隨機(jī)出生于地圖邊緣,毒圈機(jī)制會(huì)讓大家慢慢聚集到地圖中間,讓對手以及高強(qiáng)度NPC都會(huì)被迫正面對戰(zhàn),就看哪一隊(duì)KO掉的智能體數(shù)最多且存活時(shí)更長。
交易系統(tǒng)、毒圈機(jī)制……有趣又硬核
是的,為了比賽的刺激性,不僅原本無限的游戲時(shí)長被限制為1024步,在平臺(tái)本身提供的生存和攻擊規(guī)則之外,賽事還增加了交易系統(tǒng)、擴(kuò)充了裝備品類、設(shè)計(jì)了多職業(yè)分工和毒圈機(jī)制。
其中:
裝備系統(tǒng)可以讓智能體通過攻擊敵人和NPC獲取提升自己防御力和攻擊力的物品,包括彈藥、武器、護(hù)甲等等。
交易系統(tǒng)則是本屆比賽最大的亮點(diǎn)。
智能體在每一個(gè)step都可以自由買賣手里的裝備,隊(duì)友相比敵人具有優(yōu)先購買權(quán)(不可送),售賣時(shí)需要用1-100之間的數(shù)字自行定價(jià)。
購買裝備的錢可以通過不斷擊殺NPC或其他玩家獲得。
由于每個(gè)智能體的背包容量有限,裝備滿了之后不能丟棄只能賣,那么賣什么怎么定價(jià)就成為一個(gè)問題(比如高級裝備賣出去被敵人得到就會(huì)對自己造成威脅)。
這個(gè)設(shè)定不僅給群體智能體提供了全新的交互方式,也讓它們面臨的抉擇有了更高的決策復(fù)雜度。
對于多職業(yè)分工機(jī)制來說,它的設(shè)定是為了選手可以靠打角色配合去贏得比賽。
比如擅長近戰(zhàn)攻擊者就一直攻克近攻能力,只買近戰(zhàn)裝備,把得到的遠(yuǎn)程和魔法攻擊的裝備都賣掉;
善于采集的智能體,則把得到的更加高級的裝備都低價(jià)賣給自己的隊(duì)友。
最后,毒圈機(jī)制規(guī)定游戲進(jìn)行到240步的時(shí)候開始縮毒,以此強(qiáng)迫智能體盡量進(jìn)入到地圖中間的安全區(qū)域,和等級更高的NPC以及其他對手正面battle。
雙重賽道,按實(shí)力入座
那么具體怎么個(gè)比法呢?
為了不挫敗新手玩家的積極性,比賽貼心地設(shè)置了兩個(gè)賽道:PvE和PvP。
PvE即“Player vs Environment”,在該賽道中,選手與內(nèi)置AI進(jìn)行比拼,一共打十局,排名第一得0.1分。
比賽有兩個(gè)Stage,內(nèi)置AI策略難度逐漸提升。
不過其策略是固定的,因此參賽者就可以得到有參照性的反饋,從而根據(jù)該反饋不斷優(yōu)化自己的策略,讓效果可見,提振信心。
(想想看,如果一開始就和真實(shí)選手PK,雙方都同時(shí)優(yōu)化策略,該如何得知自己的優(yōu)化有沒有長進(jìn)呢?)
如果你在PvE環(huán)節(jié)Stage 1得到0.5分以上,那么恭喜,可以參加主賽場了——
PvP,即“Player vs Player”,是真實(shí)參賽者之間的比拼,獎(jiǎng)金的大頭都在這里。
在這個(gè)賽道,一切都是未知,誰都不知道會(huì)遇上什么樣的策略。
而你那在PvE中取得好成績的辦法,可能在與其他選手的大亂斗中幸運(yùn)脫穎而出,也可能被秒的落花流水。
PvP環(huán)節(jié)同樣并非一局定勝負(fù),為保證公平,賽事會(huì)用類似天梯賽的排名算法來滾動(dòng)排位。
這還沒完。
為了鼓勵(lì)多元化,涌現(xiàn)更多有意思的策略,比賽設(shè)置了兩個(gè)單項(xiàng)獎(jiǎng):
“Gold Farmer獎(jiǎng)”和“坦克獎(jiǎng)”。
沒錯(cuò),這個(gè)坦克指的就是T。開頭已經(jīng)提過,需要智能體們學(xué)會(huì)在毒圈內(nèi)外拼命橫跳、瘋狂嗑藥回血,做游戲里最肉的那個(gè)仔。
“Gold Farmer獎(jiǎng)”則只需要執(zhí)著于搞錢。
不得不說,這倆獎(jiǎng)項(xiàng)的設(shè)置,很有那味兒了。
關(guān)于比賽規(guī)則就介紹這么多。
既考驗(yàn)規(guī)則理解,也考驗(yàn)決策深度
為了減輕參賽選手熟悉環(huán)境和開始訓(xùn)練的成本,主辦方特意準(zhǔn)備了初學(xué)者工具包(Starter Kit)。
并基于Facebook的Torchbeast框架給出了一個(gè)Baseline,選手只需用幾行代碼就可以運(yùn)行Neural MMO的環(huán)境開始訓(xùn)練。
此外,他們還開發(fā)了一個(gè)輕量級的Web Viewer,可以用很簡化的流程讓選手像人類觀察員一樣可視化地觀測每一局所有智能體的表現(xiàn)。
那么,正文上文所說,上手簡單,且智能體學(xué)會(huì)喝水和采食就能存活,成為了比賽負(fù)責(zé)人陳嘉欣博士給出的第一個(gè)推薦參賽理由。
(如果不當(dāng)比賽,看成有特定規(guī)則的任務(wù),用來入門強(qiáng)化學(xué)習(xí)也可以。)
第二個(gè)推薦理由:你說它上手簡單,但也有“億點(diǎn)點(diǎn)”挑戰(zhàn)性。
比如Neural MMO挑戰(zhàn)賽就非??简?yàn)選手的兩個(gè)能力:對游戲本身的理解,與使用決策算法的能力。
鑒于每局環(huán)境里有16支隊(duì)伍共128個(gè)智能體在同時(shí)學(xué)習(xí),要想取勝,智能體們不僅需要考慮自己期望得到何種獎(jiǎng)勵(lì),如何配合隊(duì)友,還要考慮對手可能會(huì)采取什么策略。
再加上每一局對戰(zhàn)都是多任務(wù)模式,決策鏈條很長,最后的輸贏獎(jiǎng)勵(lì)很稀疏。
層層設(shè)置背后,都讓每個(gè)智能體面臨的“抉擇”都有著更高的決策復(fù)雜度,貼合現(xiàn)實(shí)的復(fù)雜決策環(huán)境。
比如它們可能就要同時(shí)解決:
- 如何尋找更節(jié)約時(shí)間的通路?
- 如何不斷地攻擊更強(qiáng)的NPC來獲取更強(qiáng)大的裝備?
- 在游戲剛開始時(shí)到底是選擇先積累擊殺分還是獲取裝備?
- 在游戲進(jìn)行到240步開始縮毒時(shí),到底是保命重要還是繼續(xù)追殺外圈的敵人和NPC再賺點(diǎn)擊殺分和裝備?
- 當(dāng)背包滿了的時(shí)候,是賣掉裝備留著存儲(chǔ)彈藥和藥水,還是死活不把高級裝備賣給敵人?
- ……
具體怎么決策,就看你如何發(fā)揮了~
最后,陳博士還表示,這次比賽新增的交易系統(tǒng)也十分有趣并具有看點(diǎn),AI之間的交互從基本的搶奪資源和互相攻擊變得跟更加的豐富寫實(shí)了。
在這種設(shè)置下,智能體之間要學(xué)會(huì)買賣的策略,從而慢慢演化出AI的經(jīng)濟(jì)行為,而之前的研究環(huán)境里比較少見這一設(shè)置。
所以大家都是第一次玩,沒有前車之鑒鋪路,能涌現(xiàn)出什么樣的策略非常值得期待。
除了以上三點(diǎn),我們再聚焦到比賽背后的多智能體決策技術(shù)。
其實(shí)這項(xiàng)研究的成果在自動(dòng)駕駛、無人機(jī)集群對抗、智慧城市、工業(yè)領(lǐng)域等方面都能派上用場。
再往遠(yuǎn)了說,該技術(shù)對通用人工智能的發(fā)展也有著不可忽視的助推作用。
所以,如此有趣又有價(jià)值的比賽,你真的不來試試?
畢竟在此之外,主辦方提供了豐厚的物質(zhì)獎(jiǎng)勵(lì)。
在物質(zhì)獎(jiǎng)勵(lì)之外,獲獎(jiǎng)?wù)哌€將以共同作者身份一同被邀請撰寫Competition Report,發(fā)表在國內(nèi)外技術(shù)類博客上,并可能作為NeurIPS的會(huì)議report/paper發(fā)表。
10月30日參賽DDL
最后,賽程時(shí)間安排奉上:
- 2022年8月18日-PvE第1階段比賽開始,發(fā)布入門套件、開放提交系統(tǒng)
- 2022年8月31日-PvP開賽
- 2022年9月22日-PvE第2階段開賽
- 2022年10月24日-參賽和團(tuán)隊(duì)組建截止日期
- 2022年10月30日-最終提交截止日期(劃重點(diǎn)?。。。?/li>
- 2022年10月31日至2022年11月15日-PvP十六強(qiáng)決賽
- 2022年11月16日-宣布結(jié)果
感興趣的盆友可以掃描下圖中的二維碼參賽~