国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

Adam優(yōu)化器再次改進(jìn)，用長期記憶限制過高學(xué)習(xí)率，北大孫栩課題組提出

曉查 2020-01-14 12:51:22 來源：量子位

無需預(yù)熱

曉查發(fā)自凹非寺
量子位報道 | 公眾號 QbitAI

Adam作為一種快速收斂的優(yōu)化器被廣泛采用，但是它較差的收斂性限制了使用范圍，為了保證更優(yōu)的結(jié)果，很多情況下我們還在使用SGD。

但SGD較慢的收斂速度也令人頭疼，所以人們一直在研究進(jìn)一步優(yōu)化Adam的方法。AdaBound、RAdam都是在這方面的嘗試。

最近北京大學(xué)孫栩課題組提出了一種新的優(yōu)化器AdaMod。這是一種基于Adam的改進(jìn)優(yōu)化器，具有自動預(yù)熱試探法和長期學(xué)習(xí)速率緩沖。

AdaMod的名稱來自Adaptive（自適應(yīng)）和Momental Bound（矩限制）。

在訓(xùn)練過程中，AdaMod可以輕松擊敗Adam，同時對學(xué)習(xí)率超參數(shù)、訓(xùn)練曲線都不那么敏感，并且不需要預(yù)熱。

優(yōu)點

AdaMod的原理是，在訓(xùn)練的同時計算自適應(yīng)學(xué)習(xí)率的指數(shù)長期平均值，并使用該平均值來修剪訓(xùn)練過程中過高的學(xué)習(xí)率。

這一做法提高了優(yōu)化器的收斂性，無需進(jìn)行預(yù)熱，并且降低了對學(xué)習(xí)率的敏感性。

在上圖中，我們可以看出，SGDM和Adam的訓(xùn)練結(jié)果都依賴于初始學(xué)習(xí)率的選擇。而AdaMod即使學(xué)習(xí)率相差兩個數(shù)量級，也能收斂到同一結(jié)果。

相比Adam優(yōu)化器，AdaMod只增加了一個超參數(shù)β3，用來描述訓(xùn)練中記憶長短的程度。

這種長期記憶解決了自適應(yīng)學(xué)習(xí)率的異常過大數(shù)值，免于讓優(yōu)化器陷入了不良的狀態(tài)。

與之前的RAdam優(yōu)化器類似，AdaMod能夠從訓(xùn)練開始就控制自適應(yīng)學(xué)習(xí)率的變化，從而確保訓(xùn)練開始時的穩(wěn)定性，無需預(yù)熱。

相關(guān)報道：

RAdam優(yōu)化器又進(jìn)化：與LookAhead強強結(jié)合，性能更優(yōu)速度更快

在3個基于Transformer的神經(jīng)機器翻譯模型上，沒有預(yù)熱的AdaMod顯示出了比預(yù)熱的Adam有著更快的收斂速率和更好的收斂結(jié)果。

而Adam優(yōu)化器如果不預(yù)熱，效果可能會非常差，達(dá)到完全不可用的程度。

算法實現(xiàn)

其實，AdaMod的思路也很簡單，只是在Adam的基礎(chǔ)上做了一個小幅的修改。

如AdaBound所描述的，不穩(wěn)定和異常的學(xué)習(xí)率通常出現(xiàn)在訓(xùn)練快結(jié)束時，這會危及自適應(yīng)方法的泛化性能。

相關(guān)報道：

中國學(xué)霸本科生提出AI新算法：速度比肩Adam，性能媲美SGD，ICLR領(lǐng)域主席贊不絕口

所以AdaBound的思路是，先定義學(xué)習(xí)率的下限ηl和ηu，一開始下限為0，上限為∞，隨著訓(xùn)練過程的進(jìn)行，上下限分別收斂到SGD的學(xué)習(xí)率α。

Adam會根據(jù)一階矩和二階矩的梯度估計值計算自適應(yīng)學(xué)習(xí)率。受指數(shù)滑動平均（EMA）的啟發(fā)，AdaMod計算梯度的低階矩，并通過參數(shù)β3將記憶帶到下一個步驟中。

可以看出，Adam和AdaMod的前8步完全相同，后者只是比前者多了9、10兩步。

具體來說，在Adam中進(jìn)行以下操作：

指數(shù)滑動平均的范圍是1/β3。β3就是記憶長短的量度，它越接近1，記憶長度也就越長。

例如當(dāng)β3=0.9時，記憶平均范圍是10個周期；當(dāng)β3=0.999時，平均范圍是1000個周期。

根據(jù)β3可以算出當(dāng)前步驟的平滑值和之前平滑值的關(guān)系。

通過這個方程，我們定義了當(dāng)前平滑值和過去“長期記憶”（long-term-memory）的關(guān)系。顯然，當(dāng)β3=0時，AdaMod則完全等價于Adam。

計算出當(dāng)前平滑值后，在它和當(dāng)前Adam算出的學(xué)習(xí)率ηt中選出一個最小值，從而避免了出現(xiàn)過高學(xué)習(xí)率的情況。

這項操作可以看作是逐個元素地削減學(xué)習(xí)率，從而使輸出受到當(dāng)前平滑值的限制。

現(xiàn)在你已經(jīng)可以直接通過pip安裝。

pip install adamod

局限性

盡管AdaMod勝過Adam，但是在更長的訓(xùn)練條件下，SGDM仍然可以勝過AdaMod。

因此，有人提出了結(jié)合DiffGrad和AdaMod的DiffMod算法，使用另一個參數(shù)“l(fā)en_memory”代替β3，可以將batch的總數(shù)傳遞它，更易于記憶和追蹤。

關(guān)于作者

這篇文章的第一作者是Ding Jianbang，通訊作者是孫栩副教授，他本科畢業(yè)華中科技大學(xué)，2010年從東京大學(xué)博士畢業(yè)，曾在微軟公司美國雷蒙德研究院實習(xí)。

他的研究方向為自然語言處理、機器學(xué)習(xí)、深度學(xué)習(xí)，曾擔(dān)任EMNLP、IJCNLP等國際學(xué)術(shù)會議的領(lǐng)域主席。

之前的AdaBound優(yōu)化器就是孫栩組的駱梁宸同學(xué)提出的。本文的第一作者也感謝了與駱梁宸等人參與的討論。

傳送門

博客討論：
https://medium.com/@lessw/meet-adamod-a-new-deep-learning-optimizer-with-memory-f01e831b80bd

論文地址：
https://arxiv.org/abs/1910.12249v1

AdaMod源代碼：
https://github.com/lancopku/AdaMod

DiffMod源代碼：
https://github.com/lessw2020/Best-Deep-Learning-Optimizers/blob/master/adamod/diffmod.py

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

優(yōu)化器優(yōu)化算法

曉查

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

Adam優(yōu)化器再次改進(jìn)，用長期記憶限制過高學(xué)習(xí)率，北大孫栩課題組提出

優(yōu)點

算法實現(xiàn)

局限性

關(guān)于作者

傳送門

相關(guān)閱讀

讓神經(jīng)網(wǎng)絡(luò)變快變小變高效：Google AI出品的神經(jīng)網(wǎng)絡(luò)模型優(yōu)化技術(shù)MorphNet

RAdam優(yōu)化器又進(jìn)化：與LookAhead強強結(jié)合，性能更優(yōu)速度更快

中國學(xué)霸本科生提出AI新算法：速度比肩Adam，性能媲美SGD

TensorFlow官方發(fā)布剪枝優(yōu)化工具：參數(shù)減少80%，精度幾乎不變

讓AI自己調(diào)整超參數(shù)，谷歌大腦新優(yōu)化器火了，自適應(yīng)不同任務(wù)，83個任務(wù)訓(xùn)練加速比經(jīng)典Adam更快

谷歌大腦提出“洗發(fā)水”二階優(yōu)化算法，Transformer訓(xùn)練時間減少40%，Jeff Dean點贊

熱門文章

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

Adam優(yōu)化器再次改進(jìn)，用長期記憶限制過高學(xué)習(xí)率，北大孫栩課題組提出

優(yōu)點

算法實現(xiàn)

局限性

關(guān)于作者

傳送門

相關(guān)閱讀

讓神經(jīng)網(wǎng)絡(luò)變快變小變高效：Google AI出品的神經(jīng)網(wǎng)絡(luò)模型優(yōu)化技術(shù)MorphNet

RAdam優(yōu)化器又進(jìn)化：與LookAhead強強結(jié)合，性能更優(yōu)速度更快

中國學(xué)霸本科生提出AI新算法：速度比肩Adam，性能媲美SGD

TensorFlow官方發(fā)布剪枝優(yōu)化工具：參數(shù)減少80%，精度幾乎不變

讓AI自己調(diào)整超參數(shù)，谷歌大腦新優(yōu)化器火了，自適應(yīng)不同任務(wù)，83個任務(wù)訓(xùn)練加速比經(jīng)典Adam更快

谷歌大腦提出“洗發(fā)水”二階優(yōu)化算法，Transformer訓(xùn)練時間減少40%，Jeff Dean點贊

熱門文章

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度

Adam優(yōu)化器再次改進(jìn)，用長期記憶限制過高學(xué)習(xí)率，北大孫栩課題組提出

RAdam優(yōu)化器又進(jìn)化：與LookAhead強強結(jié)合，性能更優(yōu)速度更快

中國學(xué)霸本科生提出AI新算法：速度比肩Adam，性能媲美SGD

TensorFlow官方發(fā)布剪枝優(yōu)化工具：參數(shù)減少80%，精度幾乎不變

讓AI自己調(diào)整超參數(shù)，谷歌大腦新優(yōu)化器火了，自適應(yīng)不同任務(wù)，83個任務(wù)訓(xùn)練加速比經(jīng)典Adam更快

谷歌大腦提出“洗發(fā)水”二階優(yōu)化算法，Transformer訓(xùn)練時間減少40%，Jeff Dean點贊

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應(yīng)：下次不遙控了

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度