OpenAI 發(fā)布了一個(gè)程序化生成環(huán)境,可以評(píng)價(jià)智能體泛化技能學(xué)習(xí)
OpenAI發(fā)布了用于評(píng)價(jià)強(qiáng)化學(xué)習(xí)智能體泛化技能學(xué)習(xí)的程序化生成環(huán)境——Procgen Benchmark。
Procgen Benchmark是一套由16個(gè)程序生成的類似游戲的環(huán)境,用于在樣本效率和增強(qiáng)學(xué)習(xí)中的泛化做基準(zhǔn)測(cè)試。
經(jīng)驗(yàn)證明,不同的環(huán)境分布對(duì)于充分訓(xùn)練和評(píng)估強(qiáng)化學(xué)習(xí)智能體是至關(guān)重要的,從而促進(jìn)程序內(nèi)容生成的廣泛使用。
然后,研究人員使用此基準(zhǔn)來(lái)研究縮放模型大小的影響,發(fā)現(xiàn)較大的模型可以顯著提高樣本效率和泛化能力。
OpenAI博客:
https://openai.com/blog/procgen-benchmark/
論文地址:
版權(quán)所有,未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用,違者必究。
- 商湯林達(dá)華萬(wàn)字長(zhǎng)文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計(jì),讓70年經(jīng)驗(yàn)“活”起來(lái)2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08