商湯組了「最強大腦」局,正兒八經(jīng)解釋為啥搞起電競AI
一家做視覺的公司,為什么要搞電競AI?
金磊 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
前不久,《星際爭霸2》蟲王iA周航加入商湯科技,擔任AI研究員。
堪稱電競職業(yè)玩家「轉(zhuǎn)型最成功」的案例之一。
而商湯作為一家以計算機視覺技術(shù)著稱的公司,這一步棋又意在何為?
近日,在世界人工智能大會的圓桌論壇《從電競到AI》中,商湯道出了其目的:
入局電競,發(fā)力決策型 AI。
這些年,有關(guān)「電競AI」的那點事
先來盤一下「電競 AI」這件事情。
許多現(xiàn)實生活中的 AI 應用,都涉及到多個智能體在復雜環(huán)境中的相互競爭和協(xié)調(diào)合作。
針對商湯入局的星際爭霸,是一種即時戰(zhàn)略(RTS)游戲的研究,也就是解決這個大問題過程中的一個小目標。
換而言之,類似星際爭霸的挑戰(zhàn),實際上就是一種多智能體強化學習算法的挑戰(zhàn)。
而?DeepMind?的?AlphaStar,可以說是在 AI 挑戰(zhàn)星際爭霸過程中,發(fā)展較為成熟的一個。
去年其研究還登上了頂級期刊?Nature?—— AlphaStar已經(jīng)超越了99.8%的人類玩家,在神族、人族和蟲族三個種族上都達到了宗師(Grandmaster)級別。
AlphaStar學會打星際,還是靠深度神經(jīng)網(wǎng)絡,這個網(wǎng)絡從原始游戲界面接收數(shù)據(jù)?(輸入)?,然后輸出一系列指令,組成游戲中的某一個動作。
至于訓練,則是通過監(jiān)督學習和強化學習來完成的。
而且,智能體的學習目標會適應環(huán)境不斷改變。
神經(jīng)網(wǎng)絡給每一個智能體的權(quán)重,也是隨著強化學習過程不斷變化;而不斷變化的權(quán)重,就是學習目標演化的依據(jù)。
電競 AI 領(lǐng)域另一個比較火的游戲是?Dota2,OpenAI 的?Rerun?和?OpenAI Five,是這款游戲中的 AI 佼佼者。
比起星際爭霸2需要操縱甚至上百個單位,Dota2這款5V5游戲,只需要操縱5個智能體,但是操作精準度和策略復雜度要高一些。
OpenAI Five 是 OpenAI 首先開發(fā)出來的電競 AI,和人類頂級團隊——世界冠軍 OG 的較量中,以2:0的明顯優(yōu)勢碾壓。
而后,OpenAI 又開發(fā)一出 Rerun,勝率再次翻新,達到了98%。
這些 AI 的背后同樣是一套神經(jīng)網(wǎng)絡。
根據(jù) OpenAI 發(fā)布的研究來看,policy (π) 被定義為從觀察數(shù)據(jù)到動作概率分布的函數(shù),這是一個有1.59億個參數(shù)的RNN神經(jīng)網(wǎng)絡。這個網(wǎng)絡主要由一個單層、4096-unit的LSTM構(gòu)成。
選手們的訓練,使用的是擴展版的近端策略優(yōu)化(PPO)方法,這也是OpenAI現(xiàn)在默認的強化學習訓練方法。這些智能體的目標是最大化未來獎勵的指數(shù)衰減和。
在訓練策略的過程中,OpenAI Five沒有用到人類游戲數(shù)據(jù),而是通過自我博弈。
與 Dota2 類似的電競 AI ,還有國內(nèi)的手游《王者榮耀》——騰訊絕悟 AI。
絕悟的 1v1 版本首次露面,是在2018年的 KPL 秋季總決賽上,而后在去年8月份,在5v5比賽中擊敗了人類職業(yè)戰(zhàn)隊,實力不容小覷。
而有關(guān)絕悟的技術(shù)細節(jié),在去年年底時,騰訊在一篇入圍AAAI 2020的論文中也有所披露。
AI的整體架構(gòu)一共分為4個模塊:強化學習學習器(RL Learner)、人工智能服務器(AI Server)、分發(fā)模塊(Dispatch Module)和記憶池(Memory Pool)。
研究人員在論文中指出,基于這樣的方法訓練一個英雄,使用48個P40 GPU卡和18000個CPU 內(nèi)核,訓練一天相當于人類打500年,訓練30個小時就能達到王者段位水平,70個小時比肩職業(yè)玩家。
電競AI這件事,蟲王iA有話說
在昨天的世界人工智能大會中,「從電競到AI」的圓桌成了大會中的亮點,與會嘉賓包括:
- 曾獲得8次《星際爭霸II》全國比賽冠軍的中國頂尖選手、商湯科技研究員周航。
- 被稱為“腦王”的《最強大腦》2019全球總冠軍、商湯科技見習研究員鄭林楷。
- 商湯科技副總裁、商湯研究院副院長閆俊杰博士。
- 商湯科技研發(fā)執(zhí)行總監(jiān)石建萍博士。
如此陣容,被網(wǎng)友戲稱「腦王論劍」。
而堪稱「轉(zhuǎn)型最成功」的電競玩家周航,發(fā)表了他的看法:
我想要自己訓練一套AI系統(tǒng),戰(zhàn)勝以前沒有戰(zhàn)勝過的對手。
在量子位的采訪中,作為與 AI 直面交鋒過的「親身經(jīng)歷者」,周航表示:
在星際這樣一個充了滿爾虞我詐的復雜環(huán)境,AI 在決策上還是太單純了。
雖然 AI 在操作上有一定優(yōu)勢,但是對整個游戲沒有建立起抽象的認知,容易被欺騙,還有很大提升空間。
但許多人對于類似星際2這樣的電競AI,提出了「公平性」方面的質(zhì)疑——畢竟機器在某些方面的能力,是遠遠超越人類的。
對此,周航從「操作」和「信息」兩方面做出看法:
在 AI 的操作方面,我個人覺得可以用一個簡單的方式去衡量:讓這一項目最頂尖的選手,嘗試去模仿 AI 的操作,如果人能模仿成功那就是公平的。
而在信息方面,AI 跟人類能獲得的信息需要保持一致。
具體到星際上來說,星際每一步是45ms,人做不到在這么短時間觀察信息并且做出反應,但是 AI 可以,限制 AI 的操作頻率是有必要的。
另外,AI 和人類在與游戲的交互方式上有很大不同。人是通過圖像和聲音了解的整個地圖的局部信息,但是 AI 目前通過星際的游戲接口獲取的信息會比人更加全面,這方面也需要加以限制。
當然,目前的電競 AI 還無法做到100%碾壓人類,對于其弱點,周航認為:
目前,星際AI 的弱點還是很明顯的。
星際的整個狀態(tài)空間太大,AI 在訓練過程中,有很多的局面都是沒經(jīng)歷過的,在這些罕見局面就會出現(xiàn)不會應對的情況,所以在與 AI 對戰(zhàn)的過程中,只要你打的天馬行空、不按套路出牌就行了。
因此,也可以發(fā)現(xiàn)電競 AI 研究的難點和重點,一方面是增強 AI 的泛化能力,做到像人類一樣抽象地思考問題;另一方面是希望能夠超越人類的認知,做出比人類更優(yōu)的決策。
除此之外,對于決策AI,前「腦王」鄭林楷也坦言:
其實人做決策經(jīng)??康氖侵庇X,而這方面 AI 仍有很多進化空間。
最后,周航對于電競 AI 發(fā)出了希冀:
我希望做到的是從 AI 模仿人類出發(fā),再到人類去模仿它;我希望AI真正拓展人類的認知,拓寬人類的想象力
入局電競,發(fā)力「決策型AI」
不難看出,近幾年的電競 AI 呈現(xiàn)越發(fā)火熱的趨勢。
其實在這背后,各家的發(fā)力點都是較為一致的,那就是「決策型 AI」。
那么,問題就來了,決策型 AI 為什么會受到如此重視,就連深耕計算機視覺的商湯科技也要入局?
在量子位與商湯研究院副院長閆俊杰的專訪中,我們得到了一些答案。
過去幾年時間中,商湯在計算機視覺的感知層面做了大量的技術(shù)積累。通過感知能力,解析了大部分的圖片和視頻,一定程度上提高了行業(yè)的智能化和自動化程度。
但隨著感知的能力越來越強,信息的維度越來越高,這就為運營、控制、決策類的問題的提升帶來了更多的可能性,但是要求也越來越高。
例如交通的信號燈控制、車輛的調(diào)度和管理、封閉空間人流的優(yōu)化、大規(guī)?;顒訒r人力的調(diào)度等等。
而在這種情況,決策型 AI 便起到了關(guān)鍵作用,正如閆俊杰所說:
這些問題已經(jīng)超越了人,甚至專家的能力,需要決策型的AI提供相關(guān)輔助,從而走通最終的價值閉環(huán)。
但要從感知型 AI 轉(zhuǎn)型為決策型 AI,所面臨的問題也是相當困難。
- 一個問題是現(xiàn)在的方法比較依賴在環(huán)境中進行大量的探索和驗證,也就是可以幾乎無限的試錯。但是真實的環(huán)境往往很難提供類似的機會。
- 另外一個問題是可解釋性,實際的系統(tǒng)很難完全依賴于一個黑盒的系統(tǒng),而需要人能進行有效的干預來提供系統(tǒng)的可靠性,這就需要AI決策能進行一些解耦。
而且,在決策型 AI 的研究和應用方面,國外整體還處于更加領(lǐng)先的狀態(tài),正如 DeepMind 和 OpenAI 的研究。
那么,在如此「內(nèi)憂外患」的情況下,商湯又該如何下好「入局電競 AI」這步棋呢?
閆俊杰表示:
具體的做法跟我們做計算機視覺的思路類似。
初期跟不同行業(yè)頭部客戶一起迭代,在滿足客戶需要的前提下,逐漸完善技術(shù)框架,提高技術(shù)框架的泛化性能,并進一步用有限的人力服務更多的客戶。
而商湯入局決策型 AI,擁有得天獨厚的優(yōu)勢——場景和人才。
首先,商湯在前期計算機視覺等技術(shù)落地的過程中,已經(jīng)積累了眾多的客戶和真實場景,這些客戶對決策型AI深化落地有了一定的接受度和預期。
也正如商湯科技研究總監(jiān)石建萍所介紹,自動駕駛就是一個很好的應用場景。
決策型AI可以用于自動駕駛的駕駛策略,包括三個層面:行為層、規(guī)劃層、以及控制層。
行為層面,包括是否要換道、是否要減速等;規(guī)劃層面,主要為本車確定可行駛路線;控制層面,則直接為本車輸出油門剎車、方向盤指令。
在仿真環(huán)境中,可以為他車、人等交通參與者的行為進行模擬,尤其是在與本車產(chǎn)生交互的場景中(例如本車匯入車流),從而幫助更好地在仿真中驗證本車自動駕駛性能。
另外一方面的優(yōu)勢便是人才。
商湯在前幾年儲備了大量的AI領(lǐng)域的人才,有完善的研發(fā)體系和資源,來支撐重點問題的攻關(guān)。
最后,閆俊杰對決策型 AI 給出了一個預測:
總體上我們相信,決策型AI的發(fā)展會類似幾年前計算機視覺領(lǐng)域。
算法效果上每年有指數(shù)級別的提升,逐漸能夠突破使用的紅線,在一兩個領(lǐng)域打開局面,然后開始更多的下沉和與行業(yè)深入結(jié)合。
- 商湯林達華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計,讓70年經(jīng)驗“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機器人人人人人塞滿了!2025-08-08