国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

人形AI捉迷藏驚煞網(wǎng)友：飛檐走壁純靠自學(xué)，表情豐富還會(huì)合作，姚班學(xué)霸吳翼參與

魚(yú)羊

安妮 2019-09-21 12:13:00 來(lái)源：量子位

網(wǎng)友：OpenAI是一家動(dòng)畫(huà)公司吧

魚(yú)羊安妮發(fā)自凹非寺

量子位出品 | 公眾號(hào) QbitAI

藍(lán)色小人努力隱藏，而紅色小人在復(fù)雜的地形中苦苦尋找，這場(chǎng)不是你死就是我活的對(duì)抗，不是CG動(dòng)畫(huà)，而是：

OpenAI的智能體真的在玩捉迷藏。

這是一項(xiàng)正經(jīng)的研究，目的在于讓AI自己學(xué)會(huì)合作和對(duì)抗。而事先連游戲規(guī)則都不給，全靠AI自己去探索。

由于展示效果看起來(lái)優(yōu)秀得一塌糊涂，網(wǎng)友甚至開(kāi)始懷疑OpenAI的身份了。

有推特網(wǎng)友表示：

實(shí)際上，OpenAI是一家動(dòng)畫(huà)公司。

還有網(wǎng)友表示驚嘆：

哦買(mǎi)嘎，這制作質(zhì)量、背景環(huán)境、甚至智能體的面部表情等都很可愛(ài)。這到底是篇科學(xué)論文，還是迪士尼里的未來(lái)世界主題公園里開(kāi)辟了一處AI新景點(diǎn)？

這項(xiàng)已經(jīng)開(kāi)源的大型AI捉迷藏博弈研究中，場(chǎng)景炫酷，每一個(gè)智能體都有自己的想法：

團(tuán)隊(duì)之間相互協(xié)作，與外部進(jìn)行聯(lián)合對(duì)抗……

這些智能體是不是都有生命了？

AI怎么玩捉迷藏游戲？

在這個(gè)捉迷藏游戲中，小紅人是“鬼”，自帶小雷達(dá)，能滿場(chǎng)瘋狂追擊。

△紅鬼還能推開(kāi)箱子

而小藍(lán)人的任務(wù)很簡(jiǎn)單，就是跑。

比起自帶傳感器的鬼們，他們的技能是利用箱子這樣的物體制造障礙，還能將之鎖定。

起初，AI們完全不知道自己能做什么，只是出于“本能”逃跑、追逐。

但在2500萬(wàn)次游戲之后，小藍(lán)人學(xué)會(huì)了通過(guò)移動(dòng)箱子，建造庇護(hù)所，來(lái)保護(hù)自己不被發(fā)現(xiàn)。

魔高一尺道高一丈。又經(jīng)過(guò)了7500萬(wàn)場(chǎng)比賽，紅鬼們會(huì)利用坡道闖進(jìn)庇護(hù)所了！

又吃了1000萬(wàn)次虧之后，小藍(lán)人們?cè)俳ū幼o(hù)所，知道把坡道也順走了。

更厲害的是，AI們不只會(huì)單兵作戰(zhàn)，還學(xué)會(huì)了團(tuán)隊(duì)協(xié)作。

看看小藍(lán)人這個(gè)協(xié)作水平，那真是行云流水，無(wú)縫銜接，還很講究策略：

什么，你覺(jué)得地形太簡(jiǎn)單？在將近5億次訓(xùn)練之后，AI們解鎖了更復(fù)雜的版本：

這群AI，可真是太秀了。

捉迷藏の奧義

再?gòu)?qiáng)調(diào)一次，以上不是CG，不是CG，不是CG。

這是來(lái)自O(shè)penAI的一項(xiàng)新研究。通過(guò)多智能體競(jìng)爭(zhēng)，和捉迷藏這樣一個(gè)簡(jiǎn)單的目標(biāo)，以及標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)算法，研究人員們發(fā)現(xiàn)，在沒(méi)有事先學(xué)習(xí)規(guī)則的情況下，AI們自己創(chuàng)造了一個(gè)自我監(jiān)督的自動(dòng)課程（autocurricula）。

這其中，既包含多輪不同的緊急策略，也包括復(fù)雜的工具使用和團(tuán)隊(duì)協(xié)調(diào)。

所謂課程（curricula），可以被視為一系列挑戰(zhàn)。而自動(dòng)課程（autocurricula）就是指，每個(gè)挑戰(zhàn)都是由系統(tǒng)本身產(chǎn)生的。（這一概念由DeepMind提出，論文地址見(jiàn)文末）

△AI們?cè)谟?xùn)練過(guò)程中發(fā)現(xiàn)了多達(dá)六種獨(dú)特的策略

并且，環(huán)境變復(fù)雜，AI們的表現(xiàn)反而更加強(qiáng)大。與其他自我監(jiān)督的強(qiáng)化學(xué)習(xí)方法相比，這群AI的行為更像人類。

OpenAI稱之為無(wú)目標(biāo)探索。

AI們事先并沒(méi)有學(xué)過(guò)捉迷藏的游戲規(guī)則，而是憑借對(duì)游戲世界的理解自由發(fā)展。

為了實(shí)現(xiàn)這一點(diǎn)，研究人員利用了以實(shí)體為中心的觀察（observation），并采用注意力機(jī)制來(lái)捕獲對(duì)象層信息。

在設(shè)定的環(huán)境中，每個(gè)智能體都根據(jù)自身的觀察和隱藏內(nèi)存狀態(tài)獨(dú)立行動(dòng)。

每個(gè)物體都會(huì)被嵌入，并通過(guò)一個(gè)有遮擋的剩余自注意塊（residual self attention block），在這其中，注意力集中在物體上，而不是隨著時(shí)間改變。

那些就在智能體面前，但并不在其視線之內(nèi)的物體則會(huì)被屏蔽掉，這樣智能體就捕捉不到它們的信息了。

智能體的策略是通過(guò)左右互搏（self-play）和近端策略優(yōu)化訓(xùn)練出來(lái)的。在優(yōu)化期間，智能體可以在其值函數(shù)中使用有關(guān)被遮擋物體和其他智能體的特權(quán)信息。

此外，大規(guī)模訓(xùn)練效果顯著。增加批量大小可以大大加快收斂速度，并且不會(huì)對(duì)樣本效率產(chǎn)生太大的影響。

這樣訓(xùn)練出來(lái)的AI，到底魯棒不魯棒呢？

光說(shuō)不練假把式，不如來(lái)一套智力測(cè)試練練手。

OpenAI的研究人員設(shè)計(jì)了一套涵蓋五個(gè)基準(zhǔn)智力測(cè)試的考題，主要分為兩個(gè)領(lǐng)域：認(rèn)知和記憶。

物體計(jì)數(shù)任務(wù)：測(cè)試智能體是否對(duì)物體具有持久的感知（即，能理解即使無(wú)法察覺(jué)，事物仍然存在這一點(diǎn)）。
鎖定和返回：測(cè)試智能體是否可以在執(zhí)行新任務(wù)時(shí)記住其原始位置。
順序鎖定任務(wù)：4個(gè)箱子被按指定順序放置在3個(gè)沒(méi)有門(mén)的隨機(jī)房間中，但每個(gè)房間都有一個(gè)坡道。智能體必須在沒(méi)有進(jìn)行過(guò)觀察的前提下，按照特定順序鎖定所有的箱子。
藍(lán)圖構(gòu)建任務(wù)：智能體必須把房間中的箱子放到指定的四個(gè)目標(biāo)位置。
避難所建設(shè)任務(wù)：智能體必須在圓筒周圍用箱子造一個(gè)避難所。

結(jié)果表明，在鎖定和返回，順序鎖定和藍(lán)圖構(gòu)建這三個(gè)任務(wù)當(dāng)中，在捉迷藏環(huán)境中預(yù)訓(xùn)練過(guò)的AI，表現(xiàn)優(yōu)于基線方法。但在對(duì)象技術(shù)和住房建設(shè)方面表現(xiàn)得要差一些。

△藍(lán)線為在捉迷藏環(huán)境中預(yù)訓(xùn)練過(guò)的AI

不限于游戲場(chǎng)景

這項(xiàng)研究引發(fā)了大量網(wǎng)友圍觀，不到一天時(shí)間，推特已經(jīng)超過(guò)2000贊。

一位軟件工程師感慨，這項(xiàng)研究直戳智能體對(duì)齊問(wèn)題（Alignment Problem）的難點(diǎn)，即使是在捉迷藏這種簡(jiǎn)答的任務(wù)中，AI可能也有讓人意想不到的行為。

HackerNews上網(wǎng)友表示，更酷的是這項(xiàng)研究此后可用于真實(shí)世界的機(jī)器人，讓他們學(xué)習(xí)去克服挑戰(zhàn)。

OpenAI自己也站出來(lái)直言，這項(xiàng)研究帶動(dòng)了四個(gè)方向的研究。

一是證明了在智能體決策中，多智能體自動(dòng)課程是導(dǎo)致很多不同和混合相轉(zhuǎn)移的原因之一。

二是驗(yàn)證了，當(dāng)模擬真實(shí)物理環(huán)境中引導(dǎo)智能體行為時(shí)，多智能體自動(dòng)課程可訓(xùn)練出類似人類的技能，比如借助工具達(dá)到目的。

三是，這項(xiàng)研究還提出了一個(gè)在開(kāi)放環(huán)境中評(píng)價(jià)智能體的框架，以及一套有針對(duì)性的智能體智力測(cè)試。這對(duì)于之后的智能體研究有一定參考意義。

最后，這項(xiàng)研究還將環(huán)境與構(gòu)建環(huán)境的代碼進(jìn)行了開(kāi)源，將鼓勵(lì)對(duì)基于物理環(huán)境的多智能體自動(dòng)課程的進(jìn)一步研究。

簡(jiǎn)單的規(guī)則、多智能體競(jìng)爭(zhēng)以及標(biāo)準(zhǔn)的大規(guī)模強(qiáng)化學(xué)習(xí)算法，原來(lái)可以激勵(lì)智能體在無(wú)監(jiān)督方法下學(xué)習(xí)復(fù)雜的策略和技能。

而往前看看，研究的意義又不僅限于理論研究階段，或局限于游戲場(chǎng)景，而是會(huì)覆蓋到日常生活的方方面面。

外媒VentureBeat在報(bào)道時(shí)，引用了DeepMind哈薩比斯對(duì)游戲AI的看法：

游戲AI是通往通用AI的墊腳石。我們研究這些游戲的真正原因是，它是研發(fā)算法的一個(gè)非常方便的試驗(yàn)場(chǎng)。

我們正在開(kāi)發(fā)一種算法，可以將其轉(zhuǎn)化到現(xiàn)實(shí)世界中來(lái)，用于解決真正具有挑戰(zhàn)性的問(wèn)題，并幫助這些領(lǐng)域的專家。

無(wú)論是DeepMind還是OpenAI，在用游戲的方式訓(xùn)練出可以在真實(shí)場(chǎng)景里應(yīng)用的技術(shù)，又何嘗不是創(chuàng)造了一個(gè)小小世界呢。

姚班畢業(yè)生參與

這篇論文出自O(shè)penAI的Bowen Baker、Ingmar Kanitscheider、Todor Markov、Yi Wu、Glenn Powell、Bob McGrew和Google Brain的Igor Mordatch之手。

一作Bowen Baker本科與碩士都畢業(yè)于電氣工程與計(jì)算科學(xué)專業(yè)，自2017年12月開(kāi)始就職于OpenAI，擔(dān)任研究科學(xué)家一職，主要針對(duì)多智能體領(lǐng)域進(jìn)行研究。

作者團(tuán)隊(duì)中還有一位年少有為的中國(guó)研究人員吳翼（Yi Wu），他是2010級(jí)清華大學(xué)姚班畢業(yè)生，又一華人圖靈獎(jiǎng)得主姚期智教授的桃李門(mén)生。

作為“半國(guó)英才聚清華，而清華一半英才在姚班”的姚班一員，吳翼在本科期間就打卡了微軟、Facebook、今日頭條等互聯(lián)網(wǎng)大廠，實(shí)習(xí)經(jīng)驗(yàn)豐富。

2014年到2019年，吳翼奔赴加州大學(xué)伯克利分校，攻讀人工智能專業(yè)，主要研究方向?yàn)閷⑸疃葟?qiáng)化學(xué)習(xí)、自然語(yǔ)言處理和概率編程。

吳翼已經(jīng)在各類AI頂會(huì)上發(fā)表論文十多篇，IJCAI 16、AAAI 17、EMNLP 17、ICML 18、NIPS 18等會(huì)議都有他的研究出現(xiàn)，今年，吳翼還參與了兩篇AAAI 19 Oral論文的研究。

吳翼還在各項(xiàng)競(jìng)賽中嶄露頭角，還是ACM/ICPC北美冠軍、世界總決賽銀牌，IOI2010銀牌得主。

清華大學(xué)交叉信息研究院網(wǎng)站和吳翼個(gè)人簡(jiǎn)歷顯示，吳翼將于明年入職，這位28歲年少有為的學(xué)霸，將擔(dān)任清華大學(xué)交叉信息科學(xué)研究院的助理教授。

姚班出身，回歸姚班，不僅是收獲季節(jié)，也是一段薪火相傳的一段佳話。

吳翼個(gè)人履歷：

https://jxwuyi.weebly.com/contest-and-interest.html

傳送門(mén)

博客：

https://openai.com/blog/emergent-tool-use/

代碼：

https://github.com/openai/multi-agent-emergence-environments

HackerNews：

https://news.ycombinator.com/item?id=20996771

VentureBeat報(bào)道：

https://venturebeat.com/2019/09/17/openai-and-deepmind-teach-ai-to-work-as-a-team-by-playing-hide-and-seek/

論文Autocurricula and the Emergence of Innovation from Social Interaction: A Manifesto for Multi-Agent Intelligence Research：

https://arxiv.org/pdf/1903.00742.pdf

— 完 —

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

OpenAI 強(qiáng)化學(xué)習(xí)

魚(yú)羊

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

人形AI捉迷藏驚煞網(wǎng)友：飛檐走壁純靠自學(xué)，表情豐富還會(huì)合作，姚班學(xué)霸吳翼參與

AI怎么玩捉迷藏游戲？

捉迷藏の奧義

不限于游戲場(chǎng)景

姚班畢業(yè)生參與

傳送門(mén)

相關(guān)閱讀

奧特曼回應(yīng)OpenAI抄襲：投資沒(méi)談攏就來(lái)反咬！新一輪郵件證據(jù)曝光

奧特曼曬“草莓”引熱議，神秘新模型現(xiàn)身競(jìng)技場(chǎng)，網(wǎng)友第一波實(shí)測(cè)

GPT-5已開(kāi)工！奧特曼：月入7億不夠燒，希望微軟再投點(diǎn)

突破Agent長(zhǎng)程推理效率瓶頸！MIT&NUS聯(lián)合推出強(qiáng)化學(xué)習(xí)新訓(xùn)練方法

OpenAI突宣開(kāi)源計(jì)劃：端側(cè)模型or小模型二選一！奧特曼在線征集投票

突發(fā)！OpenAI CTO離職，同日奧特曼被曝將獲得股權(quán)

熱門(mén)文章

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了！首創(chuàng)層次化評(píng)價(jià)體系，告別“誰(shuí)的demo更吸睛”主觀評(píng)估

宇樹(shù)機(jī)器人“撞人逃逸”火到國(guó)外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬(wàn)維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機(jī)插詞匯就行

賣(mài)酒的茅臺(tái)要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

人形AI捉迷藏驚煞網(wǎng)友：飛檐走壁純靠自學(xué)，表情豐富還會(huì)合作，姚班學(xué)霸吳翼參與

AI怎么玩捉迷藏游戲？

捉迷藏の奧義

不限于游戲場(chǎng)景

姚班畢業(yè)生參與

傳送門(mén)

相關(guān)閱讀

奧特曼回應(yīng)OpenAI抄襲：投資沒(méi)談攏就來(lái)反咬！新一輪郵件證據(jù)曝光

奧特曼曬“草莓”引熱議，神秘新模型現(xiàn)身競(jìng)技場(chǎng)，網(wǎng)友第一波實(shí)測(cè)

GPT-5已開(kāi)工！奧特曼：月入7億不夠燒，希望微軟再投點(diǎn)

突破Agent長(zhǎng)程推理效率瓶頸！MIT&NUS聯(lián)合推出強(qiáng)化學(xué)習(xí)新訓(xùn)練方法

OpenAI突宣開(kāi)源計(jì)劃：端側(cè)模型or小模型二選一！奧特曼在線征集投票

突發(fā)！OpenAI CTO離職，同日奧特曼被曝將獲得股權(quán)

熱門(mén)文章

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了！首創(chuàng)層次化評(píng)價(jià)體系，告別“誰(shuí)的demo更吸睛”主觀評(píng)估

宇樹(shù)機(jī)器人“撞人逃逸”火到國(guó)外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬(wàn)維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機(jī)插詞匯就行

賣(mài)酒的茅臺(tái)要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度

人形AI捉迷藏驚煞網(wǎng)友：飛檐走壁純靠自學(xué)，表情豐富還會(huì)合作，姚班學(xué)霸吳翼參與

AI怎么玩捉迷藏游戲？

奧特曼回應(yīng)OpenAI抄襲：投資沒(méi)談攏就來(lái)反咬！新一輪郵件證據(jù)曝光

奧特曼曬“草莓”引熱議，神秘新模型現(xiàn)身競(jìng)技場(chǎng)，網(wǎng)友第一波實(shí)測(cè)

GPT-5已開(kāi)工！奧特曼：月入7億不夠燒，希望微軟再投點(diǎn)

突破Agent長(zhǎng)程推理效率瓶頸！MIT&NUS聯(lián)合推出強(qiáng)化學(xué)習(xí)新訓(xùn)練方法

突發(fā)！OpenAI CTO離職，同日奧特曼被曝將獲得股權(quán)

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了！首創(chuàng)層次化評(píng)價(jià)體系，告別“誰(shuí)的demo更吸睛”主觀評(píng)估