人形AI捉迷藏驚煞網(wǎng)友:飛檐走壁純靠自學(xué),表情豐富還會(huì)合作,姚班學(xué)霸吳翼參與
網(wǎng)友:OpenAI是一家動(dòng)畫(huà)公司吧
魚(yú)羊 安妮 發(fā)自 凹非寺
量子位 出品 | 公眾號(hào) QbitAI
藍(lán)色小人努力隱藏,而紅色小人在復(fù)雜的地形中苦苦尋找,這場(chǎng)不是你死就是我活的對(duì)抗,不是CG動(dòng)畫(huà),而是:
OpenAI的智能體真的在玩捉迷藏。
這是一項(xiàng)正經(jīng)的研究,目的在于讓AI自己學(xué)會(huì)合作和對(duì)抗。而事先連游戲規(guī)則都不給,全靠AI自己去探索。
由于展示效果看起來(lái)優(yōu)秀得一塌糊涂,網(wǎng)友甚至開(kāi)始懷疑OpenAI的身份了。
有推特網(wǎng)友表示:
實(shí)際上,OpenAI是一家動(dòng)畫(huà)公司。
還有網(wǎng)友表示驚嘆:
哦買(mǎi)嘎,這制作質(zhì)量、背景環(huán)境、甚至智能體的面部表情等都很可愛(ài)。這到底是篇科學(xué)論文,還是迪士尼里的未來(lái)世界主題公園里開(kāi)辟了一處AI新景點(diǎn)?
這項(xiàng)已經(jīng)開(kāi)源的大型AI捉迷藏博弈研究中,場(chǎng)景炫酷,每一個(gè)智能體都有自己的想法:
團(tuán)隊(duì)之間相互協(xié)作,與外部進(jìn)行聯(lián)合對(duì)抗……
這些智能體是不是都有生命了?
AI怎么玩捉迷藏游戲?
在這個(gè)捉迷藏游戲中,小紅人是“鬼”,自帶小雷達(dá),能滿場(chǎng)瘋狂追擊。
△紅鬼還能推開(kāi)箱子
而小藍(lán)人的任務(wù)很簡(jiǎn)單,就是跑。
比起自帶傳感器的鬼們,他們的技能是利用箱子這樣的物體制造障礙,還能將之鎖定。
起初,AI們完全不知道自己能做什么,只是出于“本能”逃跑、追逐。
但在2500萬(wàn)次游戲之后,小藍(lán)人學(xué)會(huì)了通過(guò)移動(dòng)箱子,建造庇護(hù)所,來(lái)保護(hù)自己不被發(fā)現(xiàn)。
魔高一尺道高一丈。又經(jīng)過(guò)了7500萬(wàn)場(chǎng)比賽,紅鬼們會(huì)利用坡道闖進(jìn)庇護(hù)所了!
又吃了1000萬(wàn)次虧之后,小藍(lán)人們?cè)俳ū幼o(hù)所,知道把坡道也順走了。
更厲害的是,AI們不只會(huì)單兵作戰(zhàn),還學(xué)會(huì)了團(tuán)隊(duì)協(xié)作。
看看小藍(lán)人這個(gè)協(xié)作水平,那真是行云流水,無(wú)縫銜接,還很講究策略:
什么,你覺(jué)得地形太簡(jiǎn)單?在將近5億次訓(xùn)練之后,AI們解鎖了更復(fù)雜的版本:
這群AI,可真是太秀了。
捉迷藏の奧義
再?gòu)?qiáng)調(diào)一次,以上不是CG,不是CG,不是CG。
這是來(lái)自O(shè)penAI的一項(xiàng)新研究。通過(guò)多智能體競(jìng)爭(zhēng),和捉迷藏這樣一個(gè)簡(jiǎn)單的目標(biāo),以及標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)算法,研究人員們發(fā)現(xiàn),在沒(méi)有事先學(xué)習(xí)規(guī)則的情況下,AI們自己創(chuàng)造了一個(gè)自我監(jiān)督的自動(dòng)課程(autocurricula)。
這其中,既包含多輪不同的緊急策略,也包括復(fù)雜的工具使用和團(tuán)隊(duì)協(xié)調(diào)。
所謂課程(curricula),可以被視為一系列挑戰(zhàn)。而自動(dòng)課程(autocurricula)就是指,每個(gè)挑戰(zhàn)都是由系統(tǒng)本身產(chǎn)生的。(這一概念由DeepMind提出,論文地址見(jiàn)文末)
△AI們?cè)谟?xùn)練過(guò)程中發(fā)現(xiàn)了多達(dá)六種獨(dú)特的策略
并且,環(huán)境變復(fù)雜,AI們的表現(xiàn)反而更加強(qiáng)大。與其他自我監(jiān)督的強(qiáng)化學(xué)習(xí)方法相比,這群AI的行為更像人類。
OpenAI稱之為無(wú)目標(biāo)探索。
AI們事先并沒(méi)有學(xué)過(guò)捉迷藏的游戲規(guī)則,而是憑借對(duì)游戲世界的理解自由發(fā)展。
為了實(shí)現(xiàn)這一點(diǎn),研究人員利用了以實(shí)體為中心的觀察(observation),并采用注意力機(jī)制來(lái)捕獲對(duì)象層信息。
在設(shè)定的環(huán)境中,每個(gè)智能體都根據(jù)自身的觀察和隱藏內(nèi)存狀態(tài)獨(dú)立行動(dòng)。
每個(gè)物體都會(huì)被嵌入,并通過(guò)一個(gè)有遮擋的剩余自注意塊(residual self attention block),在這其中,注意力集中在物體上,而不是隨著時(shí)間改變。
那些就在智能體面前,但并不在其視線之內(nèi)的物體則會(huì)被屏蔽掉,這樣智能體就捕捉不到它們的信息了。
智能體的策略是通過(guò)左右互搏(self-play)和近端策略優(yōu)化訓(xùn)練出來(lái)的。在優(yōu)化期間,智能體可以在其值函數(shù)中使用有關(guān)被遮擋物體和其他智能體的特權(quán)信息。
此外,大規(guī)模訓(xùn)練效果顯著。增加批量大小可以大大加快收斂速度,并且不會(huì)對(duì)樣本效率產(chǎn)生太大的影響。
這樣訓(xùn)練出來(lái)的AI,到底魯棒不魯棒呢?
光說(shuō)不練假把式,不如來(lái)一套智力測(cè)試練練手。
OpenAI的研究人員設(shè)計(jì)了一套涵蓋五個(gè)基準(zhǔn)智力測(cè)試的考題,主要分為兩個(gè)領(lǐng)域:認(rèn)知和記憶。
- 物體計(jì)數(shù)任務(wù):測(cè)試智能體是否對(duì)物體具有持久的感知(即,能理解即使無(wú)法察覺(jué),事物仍然存在這一點(diǎn))。
- 鎖定和返回:測(cè)試智能體是否可以在執(zhí)行新任務(wù)時(shí)記住其原始位置。
- 順序鎖定任務(wù):4個(gè)箱子被按指定順序放置在3個(gè)沒(méi)有門(mén)的隨機(jī)房間中,但每個(gè)房間都有一個(gè)坡道。智能體必須在沒(méi)有進(jìn)行過(guò)觀察的前提下,按照特定順序鎖定所有的箱子。
- 藍(lán)圖構(gòu)建任務(wù):智能體必須把房間中的箱子放到指定的四個(gè)目標(biāo)位置。
- 避難所建設(shè)任務(wù):智能體必須在圓筒周圍用箱子造一個(gè)避難所。
結(jié)果表明,在鎖定和返回,順序鎖定和藍(lán)圖構(gòu)建這三個(gè)任務(wù)當(dāng)中,在捉迷藏環(huán)境中預(yù)訓(xùn)練過(guò)的AI,表現(xiàn)優(yōu)于基線方法。但在對(duì)象技術(shù)和住房建設(shè)方面表現(xiàn)得要差一些。
△藍(lán)線為在捉迷藏環(huán)境中預(yù)訓(xùn)練過(guò)的AI
不限于游戲場(chǎng)景
這項(xiàng)研究引發(fā)了大量網(wǎng)友圍觀,不到一天時(shí)間,推特已經(jīng)超過(guò)2000贊。
一位軟件工程師感慨,這項(xiàng)研究直戳智能體對(duì)齊問(wèn)題(Alignment Problem)的難點(diǎn),即使是在捉迷藏這種簡(jiǎn)答的任務(wù)中,AI可能也有讓人意想不到的行為。
HackerNews上網(wǎng)友表示,更酷的是這項(xiàng)研究此后可用于真實(shí)世界的機(jī)器人,讓他們學(xué)習(xí)去克服挑戰(zhàn)。
OpenAI自己也站出來(lái)直言,這項(xiàng)研究帶動(dòng)了四個(gè)方向的研究。
一是證明了在智能體決策中,多智能體自動(dòng)課程是導(dǎo)致很多不同和混合相轉(zhuǎn)移的原因之一。
二是驗(yàn)證了,當(dāng)模擬真實(shí)物理環(huán)境中引導(dǎo)智能體行為時(shí),多智能體自動(dòng)課程可訓(xùn)練出類似人類的技能,比如借助工具達(dá)到目的。
三是,這項(xiàng)研究還提出了一個(gè)在開(kāi)放環(huán)境中評(píng)價(jià)智能體的框架,以及一套有針對(duì)性的智能體智力測(cè)試。這對(duì)于之后的智能體研究有一定參考意義。
最后,這項(xiàng)研究還將環(huán)境與構(gòu)建環(huán)境的代碼進(jìn)行了開(kāi)源,將鼓勵(lì)對(duì)基于物理環(huán)境的多智能體自動(dòng)課程的進(jìn)一步研究。
簡(jiǎn)單的規(guī)則、多智能體競(jìng)爭(zhēng)以及標(biāo)準(zhǔn)的大規(guī)模強(qiáng)化學(xué)習(xí)算法,原來(lái)可以激勵(lì)智能體在無(wú)監(jiān)督方法下學(xué)習(xí)復(fù)雜的策略和技能。
而往前看看,研究的意義又不僅限于理論研究階段,或局限于游戲場(chǎng)景,而是會(huì)覆蓋到日常生活的方方面面。
外媒VentureBeat在報(bào)道時(shí),引用了DeepMind哈薩比斯對(duì)游戲AI的看法:
游戲AI是通往通用AI的墊腳石。我們研究這些游戲的真正原因是,它是研發(fā)算法的一個(gè)非常方便的試驗(yàn)場(chǎng)。
我們正在開(kāi)發(fā)一種算法,可以將其轉(zhuǎn)化到現(xiàn)實(shí)世界中來(lái),用于解決真正具有挑戰(zhàn)性的問(wèn)題,并幫助這些領(lǐng)域的專家。
無(wú)論是DeepMind還是OpenAI,在用游戲的方式訓(xùn)練出可以在真實(shí)場(chǎng)景里應(yīng)用的技術(shù),又何嘗不是創(chuàng)造了一個(gè)小小世界呢。
姚班畢業(yè)生參與
這篇論文出自O(shè)penAI的Bowen Baker、Ingmar Kanitscheider、Todor Markov、Yi Wu、Glenn Powell、Bob McGrew和Google Brain的Igor Mordatch之手。
一作Bowen Baker本科與碩士都畢業(yè)于電氣工程與計(jì)算科學(xué)專業(yè),自2017年12月開(kāi)始就職于OpenAI,擔(dān)任研究科學(xué)家一職,主要針對(duì)多智能體領(lǐng)域進(jìn)行研究。
作者團(tuán)隊(duì)中還有一位年少有為的中國(guó)研究人員吳翼(Yi Wu),他是2010級(jí)清華大學(xué)姚班畢業(yè)生,又一華人圖靈獎(jiǎng)得主姚期智教授的桃李門(mén)生。
作為“半國(guó)英才聚清華,而清華一半英才在姚班”的姚班一員,吳翼在本科期間就打卡了微軟、Facebook、今日頭條等互聯(lián)網(wǎng)大廠,實(shí)習(xí)經(jīng)驗(yàn)豐富。
2014年到2019年,吳翼奔赴加州大學(xué)伯克利分校,攻讀人工智能專業(yè),主要研究方向?yàn)閷⑸疃葟?qiáng)化學(xué)習(xí)、自然語(yǔ)言處理和概率編程。
吳翼已經(jīng)在各類AI頂會(huì)上發(fā)表論文十多篇,IJCAI 16、AAAI 17、EMNLP 17、ICML 18、NIPS 18等會(huì)議都有他的研究出現(xiàn),今年,吳翼還參與了兩篇AAAI 19 Oral論文的研究。
吳翼還在各項(xiàng)競(jìng)賽中嶄露頭角,還是ACM/ICPC北美冠軍、世界總決賽銀牌,IOI2010銀牌得主。
清華大學(xué)交叉信息研究院網(wǎng)站和吳翼個(gè)人簡(jiǎn)歷顯示,吳翼將于明年入職,這位28歲年少有為的學(xué)霸,將擔(dān)任清華大學(xué)交叉信息科學(xué)研究院的助理教授。
姚班出身,回歸姚班,不僅是收獲季節(jié),也是一段薪火相傳的一段佳話。
吳翼個(gè)人履歷:
https://jxwuyi.weebly.com/contest-and-interest.html
傳送門(mén)
博客:
https://openai.com/blog/emergent-tool-use/
代碼:
https://github.com/openai/multi-agent-emergence-environments
HackerNews:
https://news.ycombinator.com/item?id=20996771
VentureBeat報(bào)道:
https://venturebeat.com/2019/09/17/openai-and-deepmind-teach-ai-to-work-as-a-team-by-playing-hide-and-seek/
論文Autocurricula and the Emergence of Innovation from Social Interaction: A Manifesto for Multi-Agent Intelligence Research:
https://arxiv.org/pdf/1903.00742.pdf
— 完 —
- 馬斯克收購(gòu)OpenAI新計(jì)劃實(shí)錘了:找小扎籌千億美元,果然敵人的敵人就是朋友…2025-08-23
- 標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了!首創(chuàng)層次化評(píng)價(jià)體系,告別“誰(shuí)的demo更吸睛”主觀評(píng)估2025-08-16
- 阿里閃電入局Agent Infra!智能體新基建亮相WAIC,“超級(jí)大腦”開(kāi)箱即用2025-07-31
- 世紀(jì)華通謝斐:在“三大平衡”中領(lǐng)跑,實(shí)現(xiàn)游戲行業(yè)更高質(zhì)量的發(fā)展2025-08-01