你玩《2048》能拿多少分?AI的最高分紀(jì)錄:401912
光看動(dòng)圖就酷到?jīng)]有人類朋友
魚羊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
如果讓AI來玩《2048》這樣的游戲,那會(huì)是怎樣一種畫面?
現(xiàn)在,有人用強(qiáng)化學(xué)習(xí)方法實(shí)踐了起來。
于是,插上DQN的翅膀,AI從零起步,自己琢磨出了《2048》的玩法:
一起手,是不是就有內(nèi)味了?
這操作,條理清晰到令人感到舒適。“1000,no;1024,yes”的強(qiáng)迫癥們不禁紛紛點(diǎn)贊,給這只AI貢獻(xiàn)了800+ reddit熱度。
用DQN玩《2048》
調(diào)教出這只會(huì)玩《2048》的AI的,是一位巴西老哥Felipe Marcelino。目前正在米納斯吉拉斯聯(lián)邦大學(xué)攻讀CS碩士。
首先,他采用OpenAI Gym構(gòu)建了自定義強(qiáng)化學(xué)習(xí)環(huán)境。
其中包括兩種2048棋盤表示方式:
- 二進(jìn)制——使用二次冪矩陣表示棋盤中的每一塊區(qū)域
- 非二進(jìn)制——原始數(shù)字矩陣
模型包含兩種類型的神經(jīng)網(wǎng)絡(luò):CNN和MLP(多層感知機(jī))。
據(jù)Felipe介紹,與MLP相比,以CNN作為特征提取器的智能體表現(xiàn)得更好。
訓(xùn)完之后,老哥測(cè)試了一下,在1000把游戲中,AI有100次達(dá)到了2048。
玩《2048》的AI們
目前,這只用DQN訓(xùn)練出的AI玩到2048就打住了。
不過,巴西老哥拋磚,又吸引了不少來獻(xiàn)玉的盆友。
比如,同樣采用強(qiáng)化學(xué)習(xí)方法,將時(shí)序差分學(xué)習(xí)和最大期望搜索相結(jié)合的2048控制器。
在10步/秒的策略下,它最高能湊出32768。
而在追求高分的路上,有一位來自日本的選手表現(xiàn)亮眼。
依靠7個(gè)卷積層的深度卷積網(wǎng)絡(luò),這只在《2048》這個(gè)游戲中最高拿到了401912分。
正如一位網(wǎng)友所說:這正是一個(gè)足夠有趣,又不太復(fù)雜的強(qiáng)化學(xué)習(xí)案例。
如果你是剛剛開始學(xué)習(xí)強(qiáng)化學(xué)習(xí),也不妨拿這個(gè)小項(xiàng)目練練手~
參考鏈接
《2048》相關(guān)開源項(xiàng)目:
https://github.com/FelipeMarcelino/2048-gym
https://github.com/aszczepanski/2048
https://github.com/thomasahle/mcts-2048/
相關(guān)論文:
https://www.jstage.jst.go.jp/article/ipsjjip/27/0/27_340/_pdf
http://arxiv.org/abs/1604.05085
— 完 —
- 標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來了!首創(chuàng)層次化評(píng)價(jià)體系,告別“誰的demo更吸睛”主觀評(píng)估2025-08-16
- 阿里閃電入局Agent Infra!智能體新基建亮相WAIC,“超級(jí)大腦”開箱即用2025-07-31
- 世紀(jì)華通謝斐:在“三大平衡”中領(lǐng)跑,實(shí)現(xiàn)游戲行業(yè)更高質(zhì)量的發(fā)展2025-08-01
- 1.5B參數(shù)撬動(dòng)“吉卜力級(jí)”全能體驗(yàn),國產(chǎn)開源之光多模態(tài)統(tǒng)一模型,來了2025-07-30