只要你的AI算法能比小白鼠聰明,DeepMind的這20萬獎(jiǎng)金請(qǐng)拿走
賈浩楠 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
用你的AI算法和小白鼠一較高下,還能贏得3萬美元(20萬元)獎(jiǎng)金。
穩(wěn)賺?快別這么想。
實(shí)際情況是,機(jī)器學(xué)習(xí)算法一般都是在給定條件的任務(wù)中有較好的表現(xiàn),但現(xiàn)實(shí)情況則要復(fù)雜很多。舉例來說,一個(gè)老鼠在迷宮中或有遮擋的環(huán)境中尋找食物的表現(xiàn)要比一個(gè)AI好得多。
DeepMind就以動(dòng)物認(rèn)知測(cè)試為基礎(chǔ)開發(fā)了一套強(qiáng)化學(xué)習(xí)任務(wù)集Animal-AI,用來供開發(fā)者測(cè)試自己的AI模型實(shí)用性。
前兩天,Animal-AI2.0版本上線,并且在Github開源。
AI算法:我不如狗
游戲環(huán)境經(jīng)常被用來評(píng)估AI的“能力”。
一般都是給定狀態(tài)轉(zhuǎn)移概率( state transferring probability)和獎(jiǎng)勵(lì)函數(shù),在這樣的條件下來測(cè)試模型表現(xiàn)。
那真實(shí)的世界真的是這樣的嗎?
當(dāng)然不是,真實(shí)的世界要復(fù)雜地多,在面對(duì)復(fù)雜任務(wù)時(shí),動(dòng)物的表現(xiàn)往往優(yōu)于AI。
比如下圖,簡(jiǎn)單的把食放在一個(gè)透明管中,狗能明白把頭伸進(jìn)管子里就能獲得食物,而一個(gè)強(qiáng)化學(xué)習(xí)AI完全懵了。
DeepMind研究人員基于動(dòng)物認(rèn)知的研究開發(fā)了這個(gè)測(cè)試環(huán)境,旨在讓強(qiáng)化學(xué)習(xí)算法的開發(fā)者,通過動(dòng)物的行為模式中獲得啟發(fā),改善算法性能。
這個(gè)項(xiàng)目包含了訓(xùn)練環(huán)境、訓(xùn)練庫以及900個(gè)測(cè)試和/或訓(xùn)練任務(wù)。900個(gè)任務(wù)由淺入深,被分為不同的類別,以反映不同的認(rèn)知能力。
該環(huán)境使用Unity ml-agent建立。其中包含一個(gè)固定大小的競(jìng)技場(chǎng),和一個(gè)已經(jīng)訓(xùn)練好的模型。
競(jìng)技場(chǎng)中包含各種物體,包括正負(fù)獎(jiǎng)勵(lì)(綠色、黃色和紅色球體)、障礙物、雷區(qū)、不同的地形等。你的AI任務(wù)是在場(chǎng)地中收集正激勵(lì)(黃綠球)。
安裝教程
Animal-AI可以在Mac、Linux、Windows上運(yùn)行,要求Python3。
首先安裝必要運(yùn)行環(huán)境,Github項(xiàng)目主頁提供了不同系統(tǒng)的環(huán)境下載:
將安裝包解壓到examples/env文件夾下。Linux系統(tǒng)可能需要先運(yùn)行一行代碼:
chmod +x env/AnimalAI.x86_64
Animal-AI包里面是一個(gè)Unity環(huán)境交互應(yīng)用接口,包括一個(gè)gym環(huán)境、一個(gè)擴(kuò)展Unity ml-agent環(huán)境。通過以下代碼安裝:
pip install animalai
項(xiàng)目還提供一個(gè)可以用來訓(xùn)練模型的包,通過以下代碼安裝:
pip install animalai-train
環(huán)境配置好以后,在examples路徑下運(yùn)行:
pip install -r requirements.txt
啟動(dòng)jupyter notebook并運(yùn)行environment和training。
測(cè)試實(shí)例
這里測(cè)試的算法是在2019年Animal-AI Olympic大賽中獲得第一名的算法。
一個(gè)簡(jiǎn)單的尋找食物的任務(wù):
更進(jìn)一步,在一個(gè)有靜止負(fù)激勵(lì)的復(fù)雜環(huán)境中尋找食物,AI面對(duì)復(fù)雜環(huán)境時(shí)直接卡死在場(chǎng)地右下角:
讓紅色的球(負(fù)面激勵(lì))動(dòng)起來,AI需要在動(dòng)態(tài)環(huán)境中尋找食物:
再增加難度,使環(huán)境更復(fù)雜,可以看到AI直接卡死在角落里了:
一個(gè)Y型迷宮:
工具使用(這個(gè)任務(wù)中,AI必須使用蹺蹺板才能收集到食物):
這種復(fù)雜的任務(wù)絕大部分AI都無法完成,不是圍繞紅區(qū)直至?xí)r間耗盡,就是直接卡死在墻角。
可以看到,低等級(jí)的動(dòng)物行為測(cè)試任務(wù),一般的AI都能完成,而稍微加大難度,AI就會(huì)「無所適從」,直接卡死,這一系列任務(wù)讓不少滿懷信心的AI開發(fā)者鎩羽而歸。
項(xiàng)目的開發(fā)者發(fā)起了Animal-AI Olympics,征集全世界的強(qiáng)化學(xué)習(xí)AI才挑戰(zhàn)這些任務(wù),獎(jiǎng)金高達(dá)3萬美元,2019年的比賽已經(jīng)結(jié)束。
可以看到,第一名平均分也只有43.7,在復(fù)雜決策,比如避障、因果推理等項(xiàng)目上得分都很低。
組織者還計(jì)劃在2021年舉行第二屆大賽,你是否準(zhǔn)備好用自己的強(qiáng)化學(xué)習(xí)算法去贏取這3萬美元了呢?
傳送門
項(xiàng)目地址:https://github.com/beyretb/AnimalAI-Olympics
Animal-AI Olympics比賽詳細(xì)信息:http://animalaiolympics.com/AAI/2019
- 具身智能洶涌,激光雷達(dá)爆單:頭部玩家600%年增長(zhǎng),出貨超20萬臺(tái)2025-08-08
- 智能座艙率先L3!AI Agent上車顛覆體驗(yàn),千里科技WAIC交卷2025-07-28
- 千里科技聯(lián)手階躍星辰、吉利發(fā)布下一代智能座艙Agent OS2025-07-26
- 老黃剛走,全球最強(qiáng)算力Robotaxi方案落地中國(guó)2025-07-24