国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

中國AI足球隊勇奪世界冠軍，騰訊出品

蕭簫 2020-12-30 12:16:48 來源：量子位

谷歌、英超曼城聯(lián)名舉辦

蕭簫發(fā)自凹非寺
量子位報道 | 公眾號 QbitAI

一記漂亮的長傳，直接助攻射門：

帶球連過兩人：

這樣高超的線上足球技巧，并非上手兩三年的“老玩家”做出的，而是僅僅練習(xí)了一個月的騰訊AI“絕悟”。

現(xiàn)在，戰(zhàn)勝大部分榮耀玩家后，AI“絕悟”又化名WeKick，去試手了一把谷歌舉辦的線上世界足球賽。

沒想到，輕輕松松就拿了個冠軍回來：

嗯？打完王者，還能踢FIFA？

沒錯，利用遷移學(xué)習(xí)，就能讓“足球版絕悟”WeKick，快速掌握踢足球的技巧。

但要想踢出多種策略、穩(wěn)定掌握這些策略，還得采用不同的方法。

各種風(fēng)格小模型，共同訓(xùn)練主模型

從“絕悟”完全體遷移過來的WeKick，針對這場足球比賽，進行了策略性的調(diào)整。

與常規(guī)足球游戲的“控制整只球隊”不同，這場足球比賽中，每個隊伍需要控制其中1個智能體，與游戲中的10個內(nèi)置智能體組成球隊（11vs11賽制）。

也就是說，每個智能體“球員”，都需要學(xué)習(xí)如何在隊友之間傳球，并克服對手的防守以進球。

然而采用強化學(xué)習(xí)，從0開始訓(xùn)練一個會踢球的AI，相當(dāng)困難。

在王者榮耀等MOBA游戲中，智能體可以學(xué)習(xí)的信號非常多，包括實時經(jīng)濟、血量、經(jīng)驗等。

但足球游戲的激勵非常稀疏，幾乎只有“進球”這一項獎勵機制。

稀疏激勵，正是強化學(xué)習(xí)的難題之一。

為了突破這一難關(guān)，“絕悟”WeKick版本采用了3點創(chuàng)新，來對模型進行訓(xùn)練。

首先，是自博弈?（Self-Play）強化學(xué)習(xí)。

WeKick部署了一種異步分布式強化學(xué)習(xí)框架，雖然會犧牲訓(xùn)練時的部分實時性能，但能夠提升其靈活性，支持在訓(xùn)練過程中按需調(diào)整計算資源。

此外，WeKick還結(jié)合生成對抗模擬學(xué)習(xí)（GAIL）與人工設(shè)計獎勵，采用了生成對抗訓(xùn)練機制。

這種機制能夠模擬專家行為的狀態(tài)和動作分布，使得WeKick能夠從其他球隊中學(xué)習(xí)經(jīng)驗。

之后，將GAIL訓(xùn)練的模型作為固定對手，再一次進行自博弈訓(xùn)練，就能提升策略的穩(wěn)健性。

這種方法雖然不錯，卻存在一個缺陷。

訓(xùn)練后，模型容易收斂成單一風(fēng)格，容易發(fā)生因“沒見過某種打法”而表現(xiàn)失常、導(dǎo)致成績不佳的情況。

因此，WeKick的團隊想出了一種方法：采用多風(fēng)格強化學(xué)習(xí)的訓(xùn)練方案，讓智能體“球員”們先專精一個領(lǐng)域，再進行配合。

也就是說，先訓(xùn)練一群具備一定競技能力的基礎(chǔ)模型，每個模型分別掌握運球過人、傳球配合、射門得分……

然后，基于基礎(chǔ)模型，訓(xùn)練出多種風(fēng)格的各個模型，過程中會定期加入主模型作為選手，避免模型堅持原來的風(fēng)格。

最后，將這些模型集合起來，訓(xùn)練一個主模型，期間除了主模型以歷史模型為對手，還會拿所有風(fēng)格化基礎(chǔ)模型當(dāng)對手，確保主模型能應(yīng)對各種風(fēng)格的踢球方式。

通過這3種方式訓(xùn)練出來的模型WeKick，既具有豐富的足球經(jīng)驗，也能準(zhǔn)確地對抗各種不同風(fēng)格的比賽技巧。

谷歌+英超，線上足球賽

這個線上足球賽Google Football，有點像是一款A(yù)I操作的足球游戲，由谷歌和英超曼城俱樂部在Kaggle上聯(lián)合舉辦。

比賽采用谷歌強化學(xué)習(xí)環(huán)境，基于開源足球游戲Gameplay Football開發(fā)，共有來自世界頂級院校、研究機構(gòu)的1100多支隊伍參與挑戰(zhàn)。

與足球賽的比賽規(guī)則一致，線上足球賽同樣需要遵守越位、黃牌、紅牌等規(guī)則。

而在谷歌提供的足球環(huán)境中，智能體“球員”則可以做出短傳、長傳、運球、射門等動作。

在經(jīng)過幾輪廝殺后，WeKick最終以1785.8的總分，在這場競技中以顯著優(yōu)勢勝出。

不過，這也并非“絕悟”第一次參加谷歌舉辦的足球賽。

在5v5的多智能體天梯賽Google Research Football League中，“絕悟”同樣取得了第一名的成績。

事實上，在游戲AI上一路向前的“絕悟”，已經(jīng)歷了3次進化。

從最初攻克Atari游戲開始，到后來的圍棋AI“絕藝”，再到包括王者榮耀在內(nèi)的MOBA游戲AI“絕悟”，和如今的足球游戲AI“WeKick”，這一深度強化學(xué)習(xí)智能體正變得更復(fù)雜。

騰訊AI Lab表示，它們的目標(biāo)是向通用人工智能（AGI）不斷邁進。

整體訓(xùn)練框架：
https://arxiv.org/abs/1912.09729

Kaggle足球賽排行榜：
https://www.kaggle.com/c/google-football/leaderboard

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

人工智能強化學(xué)習(xí) 絕悟騰訊足球

蕭簫

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

中國AI足球隊勇奪世界冠軍，騰訊出品

各種風(fēng)格小模型，共同訓(xùn)練主模型

谷歌+英超，線上足球賽

相關(guān)閱讀

騰訊AI視頻生成曝光！與Sora同提示詞PK，你來投票

2020中國人工智能年度評選開啟，4大類別7大獎項申報正式啟動

騰訊AI擊敗王者榮耀職業(yè)隊，全靠自學(xué)、策略清奇，一天訓(xùn)練量為人類440年

強化學(xué)習(xí)+MCP=王炸？開源框架教AI在MCP中玩轉(zhuǎn)工具解決任務(wù)，實測效果超越GPT！

微信也在用的Transformer加速推理工具，現(xiàn)在騰訊開源了

報名開啟 | 李開復(fù)等AI大咖齊聚量子位MEET大會，邀你共探新形勢下智能產(chǎn)業(yè)發(fā)展之路

熱門文章

谷歌版小鋼炮開源！0.27B大模型，4個注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強29%

百度AICA第9期開課：18大行業(yè)96位首席AI架構(gòu)師齊探AI產(chǎn)業(yè)落地

吉利半年報喜人，但熱搜是高管為“背刺車主”道歉

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

中國AI足球隊勇奪世界冠軍，騰訊出品

各種風(fēng)格小模型，共同訓(xùn)練主模型

谷歌+英超，線上足球賽

相關(guān)閱讀

騰訊AI視頻生成曝光！與Sora同提示詞PK，你來投票

2020中國人工智能年度評選開啟，4大類別7大獎項申報正式啟動

騰訊AI擊敗王者榮耀職業(yè)隊，全靠自學(xué)、策略清奇，一天訓(xùn)練量為人類440年

強化學(xué)習(xí)+MCP=王炸？開源框架教AI在MCP中玩轉(zhuǎn)工具解決任務(wù)，實測效果超越GPT！

微信也在用的Transformer加速推理工具，現(xiàn)在騰訊開源了

報名開啟 | 李開復(fù)等AI大咖齊聚量子位MEET大會，邀你共探新形勢下智能產(chǎn)業(yè)發(fā)展之路

熱門文章

谷歌版小鋼炮開源！0.27B大模型，4個注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強29%

百度AICA第9期開課：18大行業(yè)96位首席AI架構(gòu)師齊探AI產(chǎn)業(yè)落地

吉利半年報喜人，但熱搜是高管為“背刺車主”道歉

中國AI足球隊勇奪世界冠軍，騰訊出品

各種風(fēng)格小模型，共同訓(xùn)練主模型

谷歌+英超，線上足球賽

騰訊AI視頻生成曝光！與Sora同提示詞PK，你來投票

騰訊AI擊敗王者榮耀職業(yè)隊，全靠自學(xué)、策略清奇，一天訓(xùn)練量為人類440年

強化學(xué)習(xí)+MCP=王炸？開源框架教AI在MCP中玩轉(zhuǎn)工具解決任務(wù)，實測效果超越GPT！

報名開啟 | 李開復(fù)等AI大咖齊聚量子位MEET大會，邀你共探新形勢下智能產(chǎn)業(yè)發(fā)展之路

谷歌版小鋼炮開源！0.27B大模型，4個注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強29%