我和AI打了六局王者榮耀,心態(tài)崩了
十三 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
今天,我和AI絕悟打了6局王者榮耀,心態(tài)有點(diǎn)崩。
沒贏過?不,比分3:3打平,還拿過MVP。
那怎么就崩潰了?聽我慢慢道來。
PVP對(duì)戰(zhàn)手游王者榮耀在五一節(jié)期間上線了一種新玩法——挑戰(zhàn) · 絕悟,也就是5人組隊(duì)和5個(gè)AI對(duì)戰(zhàn)。
早就聽聞「絕悟」在測(cè)試版的的勝率高達(dá)99.8%,而身賦「王者段位」操作水平的我,覺得是時(shí)候在王者峽谷中大展不凡身手了。
進(jìn)入挑戰(zhàn)入口后,可以看到這是一個(gè)通關(guān)玩法,一共5關(guān),想必難度會(huì)隨著關(guān)卡而提高。
OK,迫不及待,是時(shí)候展現(xiàn)真正的技術(shù)了。
被“嚇到”抽搐的后裔
先來說下第一局的陣容。
我方:孫尚香(我)、上官婉兒、嬴政、孫策和裴擒虎。
敵方:后裔、李白、關(guān)羽、小喬和牛魔。
開局前,我還在想「絕悟」會(huì)不會(huì)像人類一樣有策略,果不其然,剛上線,對(duì)面李白就帶著牛魔準(zhǔn)備反我家的“藍(lán)爸爸”(見左上角小地圖)。
此時(shí)的我還沉浸在對(duì)絕悟的贊嘆中:有幾分人類玩家的樣子。
然而,就在這時(shí),讓我更意外的事情發(fā)生了——我被后裔“陰”了,原來他一直蹲在草叢里注視著我……大半管血就被消耗沒了。
當(dāng)我想反手回?fù)?,中路小喬又過來支援了……還好我身輕如燕,沒造成送一血的悲劇。
或許是看到了我曼妙的步伐,對(duì)面的后裔……抽搐了!
此后,堅(jiān)信發(fā)育就是王道的我,就開始安心清兵線,隊(duì)友們也非常給力,開局不到3分鐘,已經(jīng)拿下7個(gè)人頭。
不過,不得不說,在團(tuán)戰(zhàn)期間,「絕悟」支援的速度還是非常可以的。
但AI可能也是不經(jīng)夸的,在一次團(tuán)戰(zhàn)中,后裔看到了我的入場(chǎng),又抽搐了!
最后,在隊(duì)友非常默契的配合下,13分鐘順利拿下勝利。
旗開得勝,開心!
趁熱打鐵,趕快第二局,雙方陣容如下。
我方:虞姬(我)、嬴政、橘右京、夏侯惇和孫悟空。
敵方:伽羅、孫悟空、達(dá)摩、蔡文姬和干將莫邪。
這局憑借著我家猴子碾壓「絕悟」操作的猴子,以及夏侯惇優(yōu)秀的上單表現(xiàn),即便面對(duì)伽羅、干將莫邪這種長(zhǎng)手怪,也順利拿下勝利。
被我“吹上天”的婉兒
第三局從陣容上來看,難度就已經(jīng)開始加大了。
我方:小喬(我)、鐘無艷、劉備、狄仁杰和伽羅。
敵方:上官婉兒、虞姬、鬼谷子、孫策和曜。
這局開場(chǎng),「絕悟」采取的策略,是最近比較流行的一種戰(zhàn)術(shù)——輔助跟著中單快速清理第一波兵線。
可以看到,鬼谷子在發(fā)現(xiàn)我家鐘無艷反野后,也非常機(jī)智的選擇回去幫忙。
在「絕悟」的迅速支援下,我方伽羅成功送上了第一個(gè)人頭,這個(gè)場(chǎng)景跟第一局如出一轍……畢竟,這局的射手不是我,操作不出那華麗的身法……
然而,此時(shí)的提示語(yǔ)亮了——一血標(biāo)本獲得——1。
What?!我們?nèi)祟愒诮^悟眼里,竟然是標(biāo)本……
這局并沒有像之前那般順利,在接近6分鐘時(shí),雙方戰(zhàn)績(jī)可以說55開,13:11。
其實(shí),對(duì)線婉兒我是比較怕的,畢竟在一個(gè)“賊6”的婉兒面前,我只能是個(gè)活靶子。然而,「絕悟」操作的婉兒,簡(jiǎn)直讓我驚呆了。
舉個(gè)例子,我家狄仁杰處于殘血狀態(tài),婉兒突然從野區(qū)中沖出來,看她行進(jìn)的路徑,應(yīng)該是那套“一氣呵成帶走人”的招式?jīng)]錯(cuò)了。
正當(dāng)我以為她的“133233上天”要帶走我們倆人時(shí),她的上天……竟然是被我的吹起來的……然后就灰頭土臉的跑!掉!了!
此后,被我吹起來,可能已經(jīng)成了婉兒上天的習(xí)慣。
強(qiáng)悍如我——“都給我坐下”!
而就在7分鐘左右,系統(tǒng)突然彈出了一個(gè)提示——絕悟AI集體升級(jí)換代中……滴滴滴。
不好,AI的能力可能要加強(qiáng)了,我的內(nèi)心產(chǎn)生了一絲恐懼。
就在這時(shí),游戲結(jié)束了……沒錯(cuò),我們一波推掉了水晶。
抱歉,你們的“升級(jí)換代”,這次就沒法體驗(yàn)了。
嗯,我有點(diǎn)膨脹了。
連敗3局,內(nèi)心崩潰
然而,接下來的路,便讓我一步步地走向崩潰的邊緣。
還是老規(guī)矩,先來介紹下第四局的陣容。
敵方:老夫子、貂蟬、張飛、李元芳和趙云。
是不是很好奇,我為什么沒有介紹我方陣容?
來看下崩潰第一彈!
嬴政、王昭君、小喬、馬可波羅和虞姬。
這波法師和射手的“脆皮聯(lián)盟”,簡(jiǎn)直快弄瞎了我的眼。
毫無懸念,13:30,14分鐘,已經(jīng)分不清這個(gè)“人機(jī)模式”下,誰是人,誰是機(jī)。
以及還被「絕悟」實(shí)力嘲諷了一波:好安靜啊。
此外還有一個(gè)畫外音:下次試試拔掉AI的電源……
收拾好心情再出發(fā),還是挑戰(zhàn)這關(guān)。
這一局我們的陣容還是不錯(cuò)的:孫悟空、明世隱、成吉思汗、嫦娥和安琪拉。
然而,萬萬沒想到,崩潰第二彈竟然來得如此之快。
開局剛上線,明世隱掛機(jī),還說道:“掛機(jī)吧,贏不了。”
嫦娥也附議:“你們選的人,根本贏不了。”
不服輸?shù)奈艺f道:“不怕AI,就怕你們這樣的隊(duì)友?!?/p>
再次毫無懸念,被“人機(jī)”。
OK,再次整理心情,挑戰(zhàn)這關(guān)的「絕悟」。
這一次,我們的陣容如下:
李元芳、張良、關(guān)羽、韓信和蔡文姬(我)。
在王者榮耀對(duì)局中,輸?shù)睦碛汕f,這一次,我們是浪輸?shù)摹?/p>
明知道「絕悟」支援非常迅速的情況下,各種“沖鋒陷陣”,那種“我不入地獄誰入地獄”的勇氣簡(jiǎn)直讓人感動(dòng)。
臣妾的奶量再大,也抵不過隊(duì)友們的浪?。∮谑呛?,又輸了。
這,就是我和AI打了6局王者榮耀的故事。
「絕悟」AI:30小時(shí)達(dá)到王者水平,70小時(shí)比肩職業(yè)玩家
「絕悟」的 1v1 版本首次露面,是在2018年的 KPL 秋季總決賽上,而后在去年8月份,在5v5比賽中擊敗了人類職業(yè)戰(zhàn)隊(duì),實(shí)力不容小覷。
而有關(guān)「絕悟」的技術(shù)細(xì)節(jié),在去年年底時(shí),騰訊在一篇入圍AAAI 2020的論文中也有所披露。
首先需要指明的是,騰訊的這篇新論文關(guān)注的是 1v1 游戲AI,并不是 5v5 游戲AI。
研究人員在論文中解釋稱,后者更注重所有智能體的團(tuán)隊(duì)合作策略,而不是單個(gè)智能體的動(dòng)作決策。
考慮到這一點(diǎn),1v1游戲更適合用來研究游戲中的復(fù)雜動(dòng)作決策問題,也能夠更加全面系統(tǒng)的研究游戲 AI 智能體的構(gòu)建。
AI的整體架構(gòu)一共分為4個(gè)模塊:強(qiáng)化學(xué)習(xí)學(xué)習(xí)器(RL Learner)、人工智能服務(wù)器(AI Server)、分發(fā)模塊(Dispatch Module)和記憶池(Memory Pool)。
這是一種高可擴(kuò)展低耦合的系統(tǒng)架構(gòu),可以用來構(gòu)建數(shù)據(jù)并行化。主要考慮的是復(fù)雜智能體的動(dòng)作決策問題可能引入高方差的隨機(jī)梯度,所以有必要采用較大的批大小以加快訓(xùn)練速度。
其中,AI服務(wù)器實(shí)現(xiàn)的是 AI 模型與環(huán)境的交互方式。分發(fā)模塊是用于樣本收集、壓縮和傳輸?shù)墓ぷ髡尽S洃洺厥菙?shù)據(jù)存儲(chǔ)模塊,能為 RL 學(xué)習(xí)器提供訓(xùn)練實(shí)例。
這些模塊是分離的,可靈活配置,從而讓研究者可將重心放在算法設(shè)計(jì)和環(huán)境邏輯上。這樣的系統(tǒng)設(shè)計(jì)也可用于其它的多智能體競(jìng)爭(zhēng)問題。
在強(qiáng)化學(xué)習(xí)學(xué)習(xí)器中,他們還實(shí)現(xiàn)了一個(gè) actor-critic 神經(jīng)網(wǎng)絡(luò),用于建模1v1 游戲中的動(dòng)作依賴關(guān)系。
為了應(yīng)對(duì)游戲中的多個(gè)場(chǎng)景決策,研究人員們還提出了一系列算法策略,來實(shí)現(xiàn)更高效率的訓(xùn)練:
- 為了幫助AI在戰(zhàn)斗中選擇目標(biāo),引入目標(biāo)注意力機(jī)制;
- 為了學(xué)習(xí)英雄的技能釋放組合,以便AI在序列決策中,快速輸出大量傷害,使用了LSTM;
- 用于構(gòu)建多標(biāo)簽近端策略優(yōu)化(PPO)目標(biāo),采用動(dòng)作依賴關(guān)系的解耦;
- 為了引導(dǎo)強(qiáng)化學(xué)習(xí)過程中的探索,開發(fā)了基于游戲知識(shí)的剪枝方法;
- 為了確保使用大和有偏差的數(shù)據(jù)批進(jìn)行訓(xùn)練時(shí)的收斂性,改進(jìn) PPO 算法提出dual-clip PPO,其示意圖如下所示:
研究人員在論文中指出,基于這樣的方法訓(xùn)練一個(gè)英雄,使用48個(gè)P40 GPU卡和18000個(gè)CPU 內(nèi)核,訓(xùn)練一天相當(dāng)于人類打500年,訓(xùn)練30個(gè)小時(shí)就能達(dá)到王者段位水平,70個(gè)小時(shí)比肩職業(yè)玩家,其表現(xiàn)要顯著優(yōu)于多種baseline方法。
而且如前所述,在與人類選手交戰(zhàn)的測(cè)試中,獲得了非常亮眼的成績(jī)。
如果你想了解關(guān)于這一AI更多的細(xì)節(jié),我們將論文鏈接放到了文末~
以及,我要繼續(xù)去挑戰(zhàn)了「絕悟」AI了!
傳送門:
https://arxiv.org/abs/1912.09729
- 商湯林達(dá)華萬字長(zhǎng)文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計(jì),讓70年經(jīng)驗(yàn)“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08