星際蟲王IA退役2年搞AI,現(xiàn)在自嘆不如了
DI-star超越了IA,可挑戰(zhàn)世界級選手
金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
這年頭,直播講AI,真算不上什么新鮮事。
但要是連職業(yè)電競選手,都開播主講呢?
沒開玩笑,是真事。
這位講AI的主播,就是那個《星際爭霸2》的蟲王——IA。
然后,他講AI的畫風是這樣的:
但有一說一,講AI畢竟還是一件嚴謹?shù)氖聝骸?/p>
IA的這波操作,怕不是在搞什么噱頭吧?
我們不妨一同來扒一扒。
職業(yè)電競玩家,為什么要做這么一件事?
其實,IA能夠開直播講AI,并不是沒有“資本”。
首先他本身就是理工科背景出身,畢業(yè)于華中科技大學。
而且早在2年前,IA就從電競圈,一個超大跨步邁進了AI圈——以游戲顧問的身份加入商湯集團X實驗室,而如今,他已經(jīng)成為了一個全職的決策AI研究員。
時隔兩年,IA這一次在直播間的亮相,并不是簡單地陳述“自身歷練”過程。
而是直接搬出了一系列成果:
自己訓練出來的AI已經(jīng)落地,可以挑戰(zhàn)《星際爭霸2》復雜的場景,更可以直接對戰(zhàn)頂級水平玩家了!
相關訓練平臺、針對星際2環(huán)境的訓練代碼已經(jīng)開源了!
千億算力訓練出的職業(yè)級AI模型也可以免費訪問!這也是目前開源界能接觸到實力最強的星際2 AI模型!
至于為什么要搞這么一件事,IA闡述了自己的理由:
完成未竟之志 。
從IA在《星際爭霸2》的職業(yè)生涯來看,他的巔峰是中國的冠軍。
但很遺憾的是,IA并沒有實現(xiàn)問鼎世界冠軍的夢想。
而通過訓練AI智能體,讓它能夠越發(fā)地向自己的實力靠攏,打造另一個“AIIA”,甚至是能夠做到超越自己。
或許,這也是一種實現(xiàn)自我理想的方式。
不僅如此,在實現(xiàn)夢想之上,IA在更早的是時候也曾透露過他對電競AI的希冀:
我希望做到的是從AI模仿人類出發(fā),再到人類去模仿它;我希望AI真正拓展人類的認知,拓寬人類的想象力。
從結果上來看,現(xiàn)如今IA確實離這樣的夢想更近了一步。
這時你會問了,之前不是經(jīng)常有“AI在《星際爭霸2》中戰(zhàn)勝人類”的消息嗎?
確實不假。
但在IA看來,在《星際爭霸2》中AI并沒有完全戰(zhàn)勝人類:
目前還沒有AI,能夠在《星際爭霸2》中完勝人類最強的選手。
而想讓AI完勝人類,還有兩方面的問題亟待解決。
第一就是種族的問題。
從上面的天梯測試圖中不難看出,同樣的AI在玩蟲族時候的表現(xiàn)是最弱的;但蟲族在人類玩家手上,那可是強得一批。
原因在于蟲族是一個被動防守的種族,這就體現(xiàn)到了AI隨機應變能力方面的不足。
第二就是最優(yōu)策略的問題。
從現(xiàn)在人和AI對戰(zhàn)的事實情況來看,只要人類跟AI過上幾招,很快就能找到它的“套路”,然后對其進行擊破。
因此,AI通過訓練找到的最優(yōu)策略,很顯然并不是最優(yōu)解。
既然問題和困難如此重重,IA訓練出來的AI又達到了怎樣的水平呢?
DI-star,了解一下。
這是專門為《星際爭霸2》開發(fā)的大規(guī)模游戲AI分布式訓練平臺。
目前,DI-star已經(jīng)在蟲族上達到了宗師級別(Grandmaster)水平。
話不多說,來看下IA在直播間放出的結果。
例如在與臺灣省職業(yè)選手Rex的對戰(zhàn)過程中,DI-star靠精細的微操建立前期優(yōu)勢。
而與前世界冠軍Scarlett的對戰(zhàn)中,DI-star能使用出女王前壓這樣的人類不常見戰(zhàn)術出奇制勝。
不難看出,DI-star已然在對戰(zhàn)過程中的決策層面上開始大放異彩。
那么接下來的一個問題就是:
DI-star是怎么煉成的?
IA在直播過程中,也沒有對這個問題做任何遮掩,而是直接將重要的步驟“拋”了出來。
從整體來看,主要分為兩個過程。
監(jiān)督學習和強化學習。
首先,就是監(jiān)督學習。
時間撥回到2020年年初,當DI-star項目正式開始啟動時,團隊總共也只有三四個人,而IA正式在這個時間以星際2游戲顧問的身份加入商湯。
體驗過星際2的玩家都知道,每一場對決都需要經(jīng)歷“采集資源”、“生產(chǎn)單位”和“戰(zhàn)斗”的過程。
而三者之間又環(huán)環(huán)相扣,需得是有足夠的智謀,才能做到“運籌帷幄,決勝千里”。
起初,他們經(jīng)歷了一個非常痛苦的解決bug過程,用團隊自己的話來描述,就是“幾乎訓練不出來任何哪怕有正常操作的AI”。
所以對于DI-star來說,先要做的就是需要去學習,反復觀摩人類的高質量對戰(zhàn)錄像。
為此,商湯X實驗室共用到了16萬場ZVZ(蟲族對蟲族)的錄像,版本跨度為4.8.2到4.9.3。
2020年7月,團隊的AI終于迎來了與人類的首勝,但對手也只是一位剛學習星際2的研究員。
但若僅僅是這般“蹣跚學步”,DI-star的分數(shù)也只是能達到3000多分,離戰(zhàn)勝人類頂級玩家的目標遙之甚遠。
因此,商湯X實驗室認為,關鍵的第二個過程就是強化學習。
在他們看來:
AI通過監(jiān)督學習有了基礎學習能力之后,需要通過互相之間的大量對戰(zhàn),提升自己的水平。
而在經(jīng)過大約1億局的對戰(zhàn)后,到了2021年的6月份,DI-star第一次戰(zhàn)勝了IA自己。
在接下來的時間里,IA就帶著“AI版的自己”,邊訓練邊尋找各大人類國手玩家切磋較量。
于是,就這么一步一步,DI-star最終擁有了能夠挑戰(zhàn)世界級選手的實力。
整個過程下來,在看著DI-star一點一滴“成長”的過程中,團隊也有自己的經(jīng)驗總結:
星際的整個狀態(tài)空間太大,AI在訓練過程中,有很多的局面都是沒經(jīng)歷過的,在這些罕見局面就會出現(xiàn)不會應對的情況,所以在與AI對戰(zhàn)的過程中,只要你打的天馬行空、不按套路出牌就行了。
因此,也可以發(fā)現(xiàn)電競AI研究的難點和重點,一方面是增強AI的泛化能力,做到像人類一樣抽象地思考問題;另一方面是希望能夠超越人類的認知,做出比人類更優(yōu)的決策。
但除此之外,這個過程中的兩個關鍵數(shù)據(jù)還需被放大關注——
“16萬場錄像”和“1億局對戰(zhàn)”。
單是從數(shù)字上就能體現(xiàn)出AI訓練所需要的資源和時間之大了。
但IA卻在直播說:
達到這樣的水平,DI-star相比其它模型,所需要的時間和資源反倒會更少。
而之所以能解鎖這樣的技能,是因為在DI-star之下,有一個十分強勁的“動力”系統(tǒng),源源不斷地輸出能量——SenseCore AI大裝置。
它可以說是商湯引擎的底層架構了,可以類比為整個引擎夯實有力的地基。
具體而言,先從算力角度來看,商湯通過結合AI芯片以及AI傳感器,構建了亞洲最大的人工智能智算中心(AIDC)。
這個AIDC預計能夠產(chǎn)生每秒3.74百億億次浮點運算的總算力,相當于一天處理時長達到23600萬年!
除此之外,從平臺角度來看,AI大裝置打通了從數(shù)據(jù)處理、模型生產(chǎn)、模型訓練、高性能推理運算,以及模型部署等等各個環(huán)節(jié)。
而且不同于其它廠商采用開源工具,商湯這“一整套”都是自研的,具備更強的適配性,更利于模型的部署和應用。
至此,DI-star為何能夠快、準、狠地被“調(diào)教”出來,就有了清晰的眉目。
顯然,在商湯的眼里,決策智能是非常重要的。
至于原因,從商湯近幾年的發(fā)展歷程變化中,就可以得到清晰的答案。
決策智能——AI行業(yè)的下一代增長動力
過去幾年時間中,商湯在計算機視覺的感知層面做了大量的技術積累,賦能了諸如傳統(tǒng)安防、金融、內(nèi)容鑒別與生產(chǎn)等諸多領域。通過感知能力,解析了大部分的圖片和視頻,一定程度上提高了行業(yè)的智能化和自動化程度。
但隨著感知的能力越來越強,信息的維度越來越高,這就為運營、控制、決策類的問題的提升帶來了更多的可能性,但是要求也越來越高。
例如自動駕駛行為控制、開放場景的資源運籌與調(diào)度、城市級交通的信號燈控制、車輛的調(diào)度和管理、封閉空間人流的優(yōu)化、大規(guī)模活動時人力的調(diào)度等等。
而在這種情況,決策型AI便起到了關鍵作用。正如商湯智慧決策與游戲(ADG)事業(yè)部總經(jīng)理兼高級研究總監(jiān)劉宇曾提到的觀點:
無論從技術的發(fā)展,還是從市場和消費者的需求來講,AI不僅要“能聽懂看懂”這個世界,更要有自己的“決策能力和想法”。而在諸如游戲、資源調(diào)度、城市管理等部分開放決策類問題上AI已經(jīng)超越了人,甚至專家的能力,需要決策型的AI提供相關輔助,從而走通最終的價值閉環(huán)。
事實上,決策型AI已經(jīng)在互聯(lián)網(wǎng)行業(yè)中證明是具備顯著的商業(yè)價值,例如它能夠在數(shù)據(jù)積累成熟的銀行、零售等行業(yè)率先落地,完成職業(yè)增強或替代從而實現(xiàn)降本增效。
而商湯ADG事業(yè)部也在利用自身研發(fā)優(yōu)勢,積極布局面向企業(yè)的通用決策任務SaaS平臺、智慧運營服務等產(chǎn)品。
由此可見,從傳統(tǒng)AI的感知智能,向更具挑戰(zhàn)和難度的決策智能躍遷,已然成為科研、產(chǎn)業(yè)等領域發(fā)展的一個大趨勢。
這也就不難理解商湯為何要發(fā)力于此了。
One More Thing
在這次的直播中,IA還為網(wǎng)友們送上了一波“福利”——DI-star項目已開源!
而且是個人PC、1060TI顯卡就能帶得動的那種哦。
不僅如此,DI-star所屬的決策智能平臺OpenDILab也對大家進行了開源。
感興趣的朋友們可以戳下方鏈接去試試了(有保姆級教程哦)~
DI-star開源地址:
https://github.com/opendilab/DI-star
- 商湯林達華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設計,讓70年經(jīng)驗“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機器人人人人人塞滿了!2025-08-08