国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

清華本科生開發(fā)強(qiáng)化學(xué)習(xí)平臺「天授」：千行代碼實現(xiàn)，性能吊打國外成熟平臺，剛剛開源

賈浩楠 2020-04-01 12:45:28 來源：量子位

基于PyTorch的高效RL平臺

賈浩楠發(fā)自凹非寺
量子位報道 | 公眾號 QbitAI

江山代有才人出，開源一波更比一波強(qiáng)。

就在最近，一個簡潔、輕巧、快速的深度強(qiáng)化學(xué)習(xí)平臺，完全基于Pytorch，在Github上開源。

如果你也是強(qiáng)化學(xué)習(xí)方面的同仁，走過路過不要錯過。

而且作者，還是一枚清華大學(xué)的本科生——翁家翌，他獨立開發(fā)了”天授（Tianshou）“平臺。

沒錯，名字就叫“天授”。

Why 天授？

主要有四大優(yōu)點：

1、速度快，整個平臺只用1500行左右代碼實現(xiàn)，在已有的toy scenarios上面完勝所有其他平臺，比如3秒訓(xùn)練一個倒立擺（CartPole）。

2、模塊化，把所有policy都拆成4個模塊：

init：策略初始化。process_fn：處理函數(shù)，從回放緩存中處理數(shù)據(jù)。call：根據(jù)觀測值計算操作learn：從給定數(shù)據(jù)包中學(xué)習(xí)

只要完善了這些給定的接口就能在100行之內(nèi)完整實現(xiàn)一個強(qiáng)化學(xué)習(xí)算法。

3、天授平臺目前支持的算法有：

Policy Gradient (PG)
Deep Q-Network (DQN)
Double DQN (DDQN) with n-step returns
Advantage Actor-Critic (A2C)
Deep Deterministic Policy Gradient (DDPG)
Proximal Policy Optimization (PPO)
Twin Delayed DDPG (TD3)
Soft Actor-Critic (SAC)

隨著項目的開發(fā)，會有更多的強(qiáng)化學(xué)習(xí)算法加入天授。

4、接口靈活：用戶可以定制各種各樣的訓(xùn)練方法，只用少量代碼就能實現(xiàn)。

如何使用天授

以DQN（Deep-Q-Network）算法為例，我們在天授平臺上使用CartPole小游戲，對它的agent進(jìn)行訓(xùn)練。

配置環(huán)境

習(xí)慣上使用OpenAI Gym，如果使用Python代碼，只需要簡單的調(diào)用Tianshou即可。

CartPole-v0是一個可應(yīng)用DQN算法的簡單環(huán)境，它擁有離散操作空間。配置環(huán)境時，你需要注意它的操作空間是連續(xù)還是離散的，以此選擇適用的算法。

設(shè)置多環(huán)境層

你可以使用現(xiàn)成的gym.Env：

也可以選擇天授提供的三種向量環(huán)境層：VectorEnv、SubprocVectorEnv和RayVectorEnv，如下所示：

示例中分別設(shè)置了8層和100層環(huán)境。

建立網(wǎng)絡(luò)

天授支持任意用戶自主定義的網(wǎng)絡(luò)或優(yōu)化器，但有接口限制。

以下是一個正確的示例：

設(shè)置策略

我們使用已定義的net和optim（有額外的策略超參數(shù)）來定義一個策略。下方我們用一個目標(biāo)網(wǎng)絡(luò)來定義DQN算法策略。

設(shè)置收集器

收集器是天授的關(guān)鍵概念，它使得策略能夠高效的與不同環(huán)境交互。每一步，收集器都會將該策略的操作數(shù)據(jù)記錄在一個回放緩存中。

訓(xùn)練

天授提供了訓(xùn)練函數(shù)onpolicy_trainer和offpolicy_trainer。當(dāng)策略達(dá)到終止條件時，他們會自動停止訓(xùn)練。由于DQN是無策略算法，我們使用offpolicy_trainer。

訓(xùn)練器支持TensorBoard記錄，方法如下：

將參數(shù)writer輸入訓(xùn)練器中，訓(xùn)練結(jié)果會被記錄在TensorBoard中。

記錄顯示，我們在幾乎4秒的時間內(nèi)完成了對DQN的訓(xùn)練。

保存/加載策略

因為我們的策略沿襲自torch.nn.Module，所以保存/加載策略方法與torch模塊相同。

觀察模型表現(xiàn)

收集器支持呈現(xiàn)功能，以35幀率觀察模型方法如下：

用你自己的代碼訓(xùn)練策略

如果你不想用天授提供的訓(xùn)練器也沒問題，以下是使用自定義訓(xùn)練器的方法。

上手體驗

天授需要Python3環(huán)境。以CartPole訓(xùn)練DQN模型為例，輸入test_dqn.py代碼進(jìn)行訓(xùn)練，其結(jié)果統(tǒng)計如下：

可以看出整個訓(xùn)練過程用時7.36秒，與開發(fā)者給出的訓(xùn)練時間符合。

模型訓(xùn)練結(jié)果如下：

作者介紹

天授的開發(fā)者：翁家翌，清華大學(xué)的在讀大四本科生。

高中畢業(yè)于福州一中，前NOI選手。

大二時作就作為團(tuán)隊主要貢獻(xiàn)者獲得了強(qiáng)化學(xué)習(xí)國際比賽vizdoom的冠軍。他希望能將天授平臺深入開發(fā)，成為強(qiáng)化學(xué)習(xí)平臺的標(biāo)桿。開源也是希望有更多的小伙伴加入這個項目。

傳送門：

PyPI提供天授平臺下載，你也可以在Github上找到天授的最新版本和其他資料。

PYPI：

https://pypi.org/project/tianshou/

Github天授主頁：

https://github.com/thu-ml/tianshou

— 完 —

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

PyTorch 強(qiáng)化學(xué)習(xí)

賈浩楠

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

清華本科生開發(fā)強(qiáng)化學(xué)習(xí)平臺「天授」：千行代碼實現(xiàn)，性能吊打國外成熟平臺，剛剛開源

Why 天授？