星際蟲(chóng)王IA退役2年搞AI,現(xiàn)在自嘆不如了
DI-star超越了IA,可挑戰(zhàn)世界級(jí)選手
金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
這年頭,直播講AI,真算不上什么新鮮事。
但要是連職業(yè)電競(jìng)選手,都開(kāi)播主講呢?
沒(méi)開(kāi)玩笑,是真事。
這位講AI的主播,就是那個(gè)《星際爭(zhēng)霸2》的蟲(chóng)王——IA。
然后,他講AI的畫(huà)風(fēng)是這樣的:
但有一說(shuō)一,講AI畢竟還是一件嚴(yán)謹(jǐn)?shù)氖聝骸?/p>
IA的這波操作,怕不是在搞什么噱頭吧?
我們不妨一同來(lái)扒一扒。
職業(yè)電競(jìng)玩家,為什么要做這么一件事?
其實(shí),IA能夠開(kāi)直播講AI,并不是沒(méi)有“資本”。
首先他本身就是理工科背景出身,畢業(yè)于華中科技大學(xué)。
而且早在2年前,IA就從電競(jìng)?cè)?,一個(gè)超大跨步邁進(jìn)了AI圈——以游戲顧問(wèn)的身份加入商湯集團(tuán)X實(shí)驗(yàn)室,而如今,他已經(jīng)成為了一個(gè)全職的決策AI研究員。
時(shí)隔兩年,IA這一次在直播間的亮相,并不是簡(jiǎn)單地陳述“自身歷練”過(guò)程。
而是直接搬出了一系列成果:
自己訓(xùn)練出來(lái)的AI已經(jīng)落地,可以挑戰(zhàn)《星際爭(zhēng)霸2》復(fù)雜的場(chǎng)景,更可以直接對(duì)戰(zhàn)頂級(jí)水平玩家了!
相關(guān)訓(xùn)練平臺(tái)、針對(duì)星際2環(huán)境的訓(xùn)練代碼已經(jīng)開(kāi)源了!
千億算力訓(xùn)練出的職業(yè)級(jí)AI模型也可以免費(fèi)訪問(wèn)!這也是目前開(kāi)源界能接觸到實(shí)力最強(qiáng)的星際2 AI模型!
至于為什么要搞這么一件事,IA闡述了自己的理由:
完成未竟之志 。
從IA在《星際爭(zhēng)霸2》的職業(yè)生涯來(lái)看,他的巔峰是中國(guó)的冠軍。
但很遺憾的是,IA并沒(méi)有實(shí)現(xiàn)問(wèn)鼎世界冠軍的夢(mèng)想。
而通過(guò)訓(xùn)練AI智能體,讓它能夠越發(fā)地向自己的實(shí)力靠攏,打造另一個(gè)“AIIA”,甚至是能夠做到超越自己。
或許,這也是一種實(shí)現(xiàn)自我理想的方式。
不僅如此,在實(shí)現(xiàn)夢(mèng)想之上,IA在更早的是時(shí)候也曾透露過(guò)他對(duì)電競(jìng)AI的希冀:
我希望做到的是從AI模仿人類出發(fā),再到人類去模仿它;我希望AI真正拓展人類的認(rèn)知,拓寬人類的想象力。
從結(jié)果上來(lái)看,現(xiàn)如今IA確實(shí)離這樣的夢(mèng)想更近了一步。
這時(shí)你會(huì)問(wèn)了,之前不是經(jīng)常有“AI在《星際爭(zhēng)霸2》中戰(zhàn)勝人類”的消息嗎?
確實(shí)不假。
但在IA看來(lái),在《星際爭(zhēng)霸2》中AI并沒(méi)有完全戰(zhàn)勝人類:
目前還沒(méi)有AI,能夠在《星際爭(zhēng)霸2》中完勝人類最強(qiáng)的選手。
而想讓AI完勝人類,還有兩方面的問(wèn)題亟待解決。
第一就是種族的問(wèn)題。
從上面的天梯測(cè)試圖中不難看出,同樣的AI在玩蟲(chóng)族時(shí)候的表現(xiàn)是最弱的;但蟲(chóng)族在人類玩家手上,那可是強(qiáng)得一批。
原因在于蟲(chóng)族是一個(gè)被動(dòng)防守的種族,這就體現(xiàn)到了AI隨機(jī)應(yīng)變能力方面的不足。
第二就是最優(yōu)策略的問(wèn)題。
從現(xiàn)在人和AI對(duì)戰(zhàn)的事實(shí)情況來(lái)看,只要人類跟AI過(guò)上幾招,很快就能找到它的“套路”,然后對(duì)其進(jìn)行擊破。
因此,AI通過(guò)訓(xùn)練找到的最優(yōu)策略,很顯然并不是最優(yōu)解。
既然問(wèn)題和困難如此重重,IA訓(xùn)練出來(lái)的AI又達(dá)到了怎樣的水平呢?
DI-star,了解一下。
這是專門(mén)為《星際爭(zhēng)霸2》開(kāi)發(fā)的大規(guī)模游戲AI分布式訓(xùn)練平臺(tái)。
目前,DI-star已經(jīng)在蟲(chóng)族上達(dá)到了宗師級(jí)別(Grandmaster)水平。
話不多說(shuō),來(lái)看下IA在直播間放出的結(jié)果。
例如在與臺(tái)灣省職業(yè)選手Rex的對(duì)戰(zhàn)過(guò)程中,DI-star靠精細(xì)的微操建立前期優(yōu)勢(shì)。
而與前世界冠軍Scarlett的對(duì)戰(zhàn)中,DI-star能使用出女王前壓這樣的人類不常見(jiàn)戰(zhàn)術(shù)出奇制勝。
不難看出,DI-star已然在對(duì)戰(zhàn)過(guò)程中的決策層面上開(kāi)始大放異彩。
那么接下來(lái)的一個(gè)問(wèn)題就是:
DI-star是怎么煉成的?
IA在直播過(guò)程中,也沒(méi)有對(duì)這個(gè)問(wèn)題做任何遮掩,而是直接將重要的步驟“拋”了出來(lái)。
從整體來(lái)看,主要分為兩個(gè)過(guò)程。
監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。
首先,就是監(jiān)督學(xué)習(xí)。
時(shí)間撥回到2020年年初,當(dāng)DI-star項(xiàng)目正式開(kāi)始啟動(dòng)時(shí),團(tuán)隊(duì)總共也只有三四個(gè)人,而IA正式在這個(gè)時(shí)間以星際2游戲顧問(wèn)的身份加入商湯。
體驗(yàn)過(guò)星際2的玩家都知道,每一場(chǎng)對(duì)決都需要經(jīng)歷“采集資源”、“生產(chǎn)單位”和“戰(zhàn)斗”的過(guò)程。
而三者之間又環(huán)環(huán)相扣,需得是有足夠的智謀,才能做到“運(yùn)籌帷幄,決勝千里”。
起初,他們經(jīng)歷了一個(gè)非常痛苦的解決bug過(guò)程,用團(tuán)隊(duì)自己的話來(lái)描述,就是“幾乎訓(xùn)練不出來(lái)任何哪怕有正常操作的AI”。
所以對(duì)于DI-star來(lái)說(shuō),先要做的就是需要去學(xué)習(xí),反復(fù)觀摩人類的高質(zhì)量對(duì)戰(zhàn)錄像。
為此,商湯X實(shí)驗(yàn)室共用到了16萬(wàn)場(chǎng)ZVZ(蟲(chóng)族對(duì)蟲(chóng)族)的錄像,版本跨度為4.8.2到4.9.3。
2020年7月,團(tuán)隊(duì)的AI終于迎來(lái)了與人類的首勝,但對(duì)手也只是一位剛學(xué)習(xí)星際2的研究員。
但若僅僅是這般“蹣跚學(xué)步”,DI-star的分?jǐn)?shù)也只是能達(dá)到3000多分,離戰(zhàn)勝人類頂級(jí)玩家的目標(biāo)遙之甚遠(yuǎn)。
因此,商湯X實(shí)驗(yàn)室認(rèn)為,關(guān)鍵的第二個(gè)過(guò)程就是強(qiáng)化學(xué)習(xí)。
在他們看來(lái):
AI通過(guò)監(jiān)督學(xué)習(xí)有了基礎(chǔ)學(xué)習(xí)能力之后,需要通過(guò)互相之間的大量對(duì)戰(zhàn),提升自己的水平。
而在經(jīng)過(guò)大約1億局的對(duì)戰(zhàn)后,到了2021年的6月份,DI-star第一次戰(zhàn)勝了IA自己。
在接下來(lái)的時(shí)間里,IA就帶著“AI版的自己”,邊訓(xùn)練邊尋找各大人類國(guó)手玩家切磋較量。
于是,就這么一步一步,DI-star最終擁有了能夠挑戰(zhàn)世界級(jí)選手的實(shí)力。
整個(gè)過(guò)程下來(lái),在看著DI-star一點(diǎn)一滴“成長(zhǎng)”的過(guò)程中,團(tuán)隊(duì)也有自己的經(jīng)驗(yàn)總結(jié):
星際的整個(gè)狀態(tài)空間太大,AI在訓(xùn)練過(guò)程中,有很多的局面都是沒(méi)經(jīng)歷過(guò)的,在這些罕見(jiàn)局面就會(huì)出現(xiàn)不會(huì)應(yīng)對(duì)的情況,所以在與AI對(duì)戰(zhàn)的過(guò)程中,只要你打的天馬行空、不按套路出牌就行了。
因此,也可以發(fā)現(xiàn)電競(jìng)AI研究的難點(diǎn)和重點(diǎn),一方面是增強(qiáng)AI的泛化能力,做到像人類一樣抽象地思考問(wèn)題;另一方面是希望能夠超越人類的認(rèn)知,做出比人類更優(yōu)的決策。
但除此之外,這個(gè)過(guò)程中的兩個(gè)關(guān)鍵數(shù)據(jù)還需被放大關(guān)注——
“16萬(wàn)場(chǎng)錄像”和“1億局對(duì)戰(zhàn)”。
單是從數(shù)字上就能體現(xiàn)出AI訓(xùn)練所需要的資源和時(shí)間之大了。
但I(xiàn)A卻在直播說(shuō):
達(dá)到這樣的水平,DI-star相比其它模型,所需要的時(shí)間和資源反倒會(huì)更少。
而之所以能解鎖這樣的技能,是因?yàn)樵贒I-star之下,有一個(gè)十分強(qiáng)勁的“動(dòng)力”系統(tǒng),源源不斷地輸出能量——SenseCore AI大裝置。
它可以說(shuō)是商湯引擎的底層架構(gòu)了,可以類比為整個(gè)引擎夯實(shí)有力的地基。
具體而言,先從算力角度來(lái)看,商湯通過(guò)結(jié)合AI芯片以及AI傳感器,構(gòu)建了亞洲最大的人工智能智算中心(AIDC)。
這個(gè)AIDC預(yù)計(jì)能夠產(chǎn)生每秒3.74百億億次浮點(diǎn)運(yùn)算的總算力,相當(dāng)于一天處理時(shí)長(zhǎng)達(dá)到23600萬(wàn)年!
除此之外,從平臺(tái)角度來(lái)看,AI大裝置打通了從數(shù)據(jù)處理、模型生產(chǎn)、模型訓(xùn)練、高性能推理運(yùn)算,以及模型部署等等各個(gè)環(huán)節(jié)。
而且不同于其它廠商采用開(kāi)源工具,商湯這“一整套”都是自研的,具備更強(qiáng)的適配性,更利于模型的部署和應(yīng)用。
至此,DI-star為何能夠快、準(zhǔn)、狠地被“調(diào)教”出來(lái),就有了清晰的眉目。
顯然,在商湯的眼里,決策智能是非常重要的。
至于原因,從商湯近幾年的發(fā)展歷程變化中,就可以得到清晰的答案。
決策智能——AI行業(yè)的下一代增長(zhǎng)動(dòng)力
過(guò)去幾年時(shí)間中,商湯在計(jì)算機(jī)視覺(jué)的感知層面做了大量的技術(shù)積累,賦能了諸如傳統(tǒng)安防、金融、內(nèi)容鑒別與生產(chǎn)等諸多領(lǐng)域。通過(guò)感知能力,解析了大部分的圖片和視頻,一定程度上提高了行業(yè)的智能化和自動(dòng)化程度。
但隨著感知的能力越來(lái)越強(qiáng),信息的維度越來(lái)越高,這就為運(yùn)營(yíng)、控制、決策類的問(wèn)題的提升帶來(lái)了更多的可能性,但是要求也越來(lái)越高。
例如自動(dòng)駕駛行為控制、開(kāi)放場(chǎng)景的資源運(yùn)籌與調(diào)度、城市級(jí)交通的信號(hào)燈控制、車輛的調(diào)度和管理、封閉空間人流的優(yōu)化、大規(guī)?;顒?dòng)時(shí)人力的調(diào)度等等。
而在這種情況,決策型AI便起到了關(guān)鍵作用。正如商湯智慧決策與游戲(ADG)事業(yè)部總經(jīng)理兼高級(jí)研究總監(jiān)劉宇曾提到的觀點(diǎn):
無(wú)論從技術(shù)的發(fā)展,還是從市場(chǎng)和消費(fèi)者的需求來(lái)講,AI不僅要“能聽(tīng)懂看懂”這個(gè)世界,更要有自己的“決策能力和想法”。而在諸如游戲、資源調(diào)度、城市管理等部分開(kāi)放決策類問(wèn)題上AI已經(jīng)超越了人,甚至專家的能力,需要決策型的AI提供相關(guān)輔助,從而走通最終的價(jià)值閉環(huán)。
事實(shí)上,決策型AI已經(jīng)在互聯(lián)網(wǎng)行業(yè)中證明是具備顯著的商業(yè)價(jià)值,例如它能夠在數(shù)據(jù)積累成熟的銀行、零售等行業(yè)率先落地,完成職業(yè)增強(qiáng)或替代從而實(shí)現(xiàn)降本增效。
而商湯ADG事業(yè)部也在利用自身研發(fā)優(yōu)勢(shì),積極布局面向企業(yè)的通用決策任務(wù)SaaS平臺(tái)、智慧運(yùn)營(yíng)服務(wù)等產(chǎn)品。
由此可見(jiàn),從傳統(tǒng)AI的感知智能,向更具挑戰(zhàn)和難度的決策智能躍遷,已然成為科研、產(chǎn)業(yè)等領(lǐng)域發(fā)展的一個(gè)大趨勢(shì)。
這也就不難理解商湯為何要發(fā)力于此了。
One More Thing
在這次的直播中,IA還為網(wǎng)友們送上了一波“福利”——DI-star項(xiàng)目已開(kāi)源!
而且是個(gè)人PC、1060TI顯卡就能帶得動(dòng)的那種哦。
不僅如此,DI-star所屬的決策智能平臺(tái)OpenDILab也對(duì)大家進(jìn)行了開(kāi)源。
感興趣的朋友們可以戳下方鏈接去試試了(有保姆級(jí)教程哦)~
DI-star開(kāi)源地址:
https://github.com/opendilab/DI-star
- 商湯林達(dá)華萬(wàn)字長(zhǎng)文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計(jì),讓70年經(jīng)驗(yàn)“活”起來(lái)2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08