国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

你玩《2048》能拿多少分？AI的最高分紀(jì)錄：401912

魚羊 2020-06-23 08:41:48 來源：量子位

光看動(dòng)圖就酷到?jīng)]有人類朋友

魚羊發(fā)自凹非寺
量子位報(bào)道 | 公眾號(hào) QbitAI

如果讓AI來玩《2048》這樣的游戲，那會(huì)是怎樣一種畫面？

現(xiàn)在，有人用強(qiáng)化學(xué)習(xí)方法實(shí)踐了起來。

于是，插上DQN的翅膀，AI從零起步，自己琢磨出了《2048》的玩法：

一起手，是不是就有內(nèi)味了？

這操作，條理清晰到令人感到舒適。“1000，no；1024，yes”的強(qiáng)迫癥們不禁紛紛點(diǎn)贊，給這只AI貢獻(xiàn)了800+ reddit熱度。

用DQN玩《2048》

調(diào)教出這只會(huì)玩《2048》的AI的，是一位巴西老哥Felipe Marcelino。目前正在米納斯吉拉斯聯(lián)邦大學(xué)攻讀CS碩士。

首先，他采用OpenAI Gym構(gòu)建了自定義強(qiáng)化學(xué)習(xí)環(huán)境。

其中包括兩種2048棋盤表示方式：

二進(jìn)制——使用二次冪矩陣表示棋盤中的每一塊區(qū)域
非二進(jìn)制——原始數(shù)字矩陣

模型包含兩種類型的神經(jīng)網(wǎng)絡(luò)：CNN和MLP（多層感知機(jī)）。

據(jù)Felipe介紹，與MLP相比，以CNN作為特征提取器的智能體表現(xiàn)得更好。

訓(xùn)完之后，老哥測(cè)試了一下，在1000把游戲中，AI有100次達(dá)到了2048。

玩《2048》的AI們

目前，這只用DQN訓(xùn)練出的AI玩到2048就打住了。

不過，巴西老哥拋磚，又吸引了不少來獻(xiàn)玉的盆友。

比如，同樣采用強(qiáng)化學(xué)習(xí)方法，將時(shí)序差分學(xué)習(xí)和最大期望搜索相結(jié)合的2048控制器。

在10步/秒的策略下，它最高能湊出32768。

而在追求高分的路上，有一位來自日本的選手表現(xiàn)亮眼。

依靠7個(gè)卷積層的深度卷積網(wǎng)絡(luò)，這只在《2048》這個(gè)游戲中最高拿到了401912分。

正如一位網(wǎng)友所說：這正是一個(gè)足夠有趣，又不太復(fù)雜的強(qiáng)化學(xué)習(xí)案例。

如果你是剛剛開始學(xué)習(xí)強(qiáng)化學(xué)習(xí)，也不妨拿這個(gè)小項(xiàng)目練練手~

參考鏈接

《2048》相關(guān)開源項(xiàng)目：
https://github.com/FelipeMarcelino/2048-gym
https://github.com/aszczepanski/2048
https://github.com/thomasahle/mcts-2048/

相關(guān)論文：
https://www.jstage.jst.go.jp/article/ipsjjip/27/0/27_340/_pdf
http://arxiv.org/abs/1604.05085

— 完 —

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

2048 強(qiáng)化學(xué)習(xí)

魚羊

相關(guān)閱讀

參加動(dòng)物AI奧運(yùn)會(huì)，讓你的智能體比狗狗聰明，掙取3.2萬美元獎(jiǎng)金

還有機(jī)會(huì)去NeurIPS。

曉查2019-07-05

強(qiáng)化學(xué)習(xí)

百度正用谷歌AlphaGo，解決一個(gè)比圍棋更難的問題

最著名的NP-完全問題之一。

夏乙2019-03-06

AlphaGo 人工智能強(qiáng)化學(xué)習(xí) 百度

深度學(xué)習(xí)論文TOP10，2019一季度研究進(jìn)展大盤點(diǎn)

基于PyTorch Geometric的快速圖像表征學(xué)習(xí)、Mask Scoring R-CNN、星際爭霸多智能體挑戰(zhàn)、Lingvo……

魚羊2019-05-07

強(qiáng)化學(xué)習(xí) 深度學(xué)習(xí) 計(jì)算機(jī)視覺論文

谷歌實(shí)現(xiàn)2種新的強(qiáng)化學(xué)習(xí)算法，“比肩”DQN，泛化性能更佳?。麵CLR 2021

受到神經(jīng)架構(gòu)搜索（NAS）啟發(fā)

明敏2021-04-29

強(qiáng)化學(xué)習(xí) 算法谷歌

AI看了70000小時(shí)《我的世界》視頻學(xué)會(huì)人類高級(jí)技巧，網(wǎng)友：它好痛苦

還打算給它看100萬小時(shí)視頻

十三2022-11-27

OpenAI 強(qiáng)化學(xué)習(xí) 模仿學(xué)習(xí)

教AI逐幀搓招玩《鐵拳》通關(guān)最高難度，現(xiàn)在的街機(jī)游戲愛好者有點(diǎn)東西啊

精通拳皇98、街頭爭霸、死或生

博雯2022-02-14

強(qiáng)化學(xué)習(xí) 街機(jī)游戲

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

你玩《2048》能拿多少分？AI的最高分紀(jì)錄：401912

用DQN玩《2048》

玩《2048》的AI們

相關(guān)閱讀

參加動(dòng)物AI奧運(yùn)會(huì)，讓你的智能體比狗狗聰明，掙取3.2萬美元獎(jiǎng)金

百度正用谷歌AlphaGo，解決一個(gè)比圍棋更難的問題

深度學(xué)習(xí)論文TOP10，2019一季度研究進(jìn)展大盤點(diǎn)

谷歌實(shí)現(xiàn)2種新的強(qiáng)化學(xué)習(xí)算法，“比肩”DQN，泛化性能更佳?。麵CLR 2021

AI看了70000小時(shí)《我的世界》視頻學(xué)會(huì)人類高級(jí)技巧，網(wǎng)友：它好痛苦

教AI逐幀搓招玩《鐵拳》通關(guān)最高難度，現(xiàn)在的街機(jī)游戲愛好者有點(diǎn)東西啊

熱門文章

谷歌版小鋼炮開源！0.27B大模型，4個(gè)注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

國家級(jí)AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬元獎(jiǎng)金池+全場(chǎng)景賽道，沖線團(tuán)隊(duì)速來

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強(qiáng)29%

百度AICA第9期開課：18大行業(yè)96位首席AI架構(gòu)師齊探AI產(chǎn)業(yè)落地

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

你玩《2048》能拿多少分？AI的最高分紀(jì)錄：401912

用DQN玩《2048》

玩《2048》的AI們

相關(guān)閱讀

參加動(dòng)物AI奧運(yùn)會(huì)，讓你的智能體比狗狗聰明，掙取3.2萬美元獎(jiǎng)金

百度正用谷歌AlphaGo，解決一個(gè)比圍棋更難的問題

深度學(xué)習(xí)論文TOP10，2019一季度研究進(jìn)展大盤點(diǎn)

谷歌實(shí)現(xiàn)2種新的強(qiáng)化學(xué)習(xí)算法，“比肩”DQN，泛化性能更佳?。麵CLR 2021

AI看了70000小時(shí)《我的世界》視頻學(xué)會(huì)人類高級(jí)技巧，網(wǎng)友：它好痛苦

教AI逐幀搓招玩《鐵拳》通關(guān)最高難度，現(xiàn)在的街機(jī)游戲愛好者有點(diǎn)東西啊

熱門文章

谷歌版小鋼炮開源！0.27B大模型，4個(gè)注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

國家級(jí)AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬元獎(jiǎng)金池+全場(chǎng)景賽道，沖線團(tuán)隊(duì)速來

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強(qiáng)29%

百度AICA第9期開課：18大行業(yè)96位首席AI架構(gòu)師齊探AI產(chǎn)業(yè)落地

你玩《2048》能拿多少分？AI的最高分紀(jì)錄：401912

參加動(dòng)物AI奧運(yùn)會(huì)，讓你的智能體比狗狗聰明，掙取3.2萬美元獎(jiǎng)金

百度正用谷歌AlphaGo，解決一個(gè)比圍棋更難的問題

深度學(xué)習(xí)論文TOP10，2019一季度研究進(jìn)展大盤點(diǎn)

谷歌實(shí)現(xiàn)2種新的強(qiáng)化學(xué)習(xí)算法，“比肩”DQN，泛化性能更佳?。麵CLR 2021

AI看了70000小時(shí)《我的世界》視頻學(xué)會(huì)人類高級(jí)技巧，網(wǎng)友：它好痛苦

教AI逐幀搓招玩《鐵拳》通關(guān)最高難度，現(xiàn)在的街機(jī)游戲愛好者有點(diǎn)東西啊

谷歌版小鋼炮開源！0.27B大模型，4個(gè)注意力頭，專為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

國家級(jí)AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬元獎(jiǎng)金池+全場(chǎng)景賽道，沖線團(tuán)隊(duì)速來

GPT-5超越人類醫(yī)生！推理能力比專家高出24%，理解力強(qiáng)29%