国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

建神經(jīng)網(wǎng)絡(luò)模型，哪種優(yōu)化算法更好？35000次測(cè)試告訴你丨圖賓根大學(xué)出品

蕭簫 2020-10-14 03:29:01 來(lái)源：量子位

130種優(yōu)化器，最早追溯到1964年

蕭簫發(fā)自凹非寺
量子位報(bào)道 | 公眾號(hào) QbitAI

想要優(yōu)化自己的神經(jīng)網(wǎng)絡(luò)，卻不知道哪種優(yōu)化器更適合自己？

又或者，想知道深度學(xué)習(xí)中梯度下降的算法到底都有哪些？

現(xiàn)在，最全面的優(yōu)化算法分析來(lái)了。

它整理了自1964年以來(lái)，幾乎所有的優(yōu)化方法?（約130種），將它們進(jìn)行了分類(lèi)。

此外，它還給出了幾種基準(zhǔn)測(cè)試方法，并用它分析了1344種可能的配置方案。

在運(yùn)行了35000次測(cè)試后，它給出了非常全面的優(yōu)化器算法分析介紹，并告訴你如何用這些基準(zhǔn)測(cè)試，為自己的深度學(xué)習(xí)模型選擇最好的優(yōu)化方案。

優(yōu)化方法具體都有哪幾種？

從下圖這份密密麻麻的圖表來(lái)看，迄今為止，提出的優(yōu)化算法已經(jīng)有130種左右。

目前他們還看不出來(lái)區(qū)別，但在測(cè)試結(jié)果中可以發(fā)現(xiàn)，這些優(yōu)化器明顯能被分成兩類(lèi)，一種適用于VAE（變分自編碼器），另一種則不適用于VAE。

而從這些優(yōu)化器中的常用參數(shù)來(lái)看，α0表示初始學(xué)習(xí)率，αlo和αup代表上下界，?t表示切換衰減樣式的周期，k表示衰減因子。

可以看出，這些學(xué)習(xí)率的參數(shù)主要可以被分為常數(shù)、梯度下降、平滑下降、周期性、預(yù)熱、超收斂等幾種。

那么，130多種優(yōu)化器，哪種才是最適用的？而對(duì)這些參數(shù)進(jìn)行調(diào)整，到底能對(duì)優(yōu)化器起到多大的作用？

用基準(zhǔn)測(cè)試方法來(lái)測(cè)測(cè)，就知道了。

8種基準(zhǔn)測(cè)試方法

如下圖，作者提出了8種優(yōu)化任務(wù)，在這些任務(wù)上面進(jìn)行測(cè)試，以得到對(duì)比結(jié)果。

從圖中看來(lái)，無(wú)論是數(shù)據(jù)集（MNIST、CIFAR-10等）、模型（VAE、CNN、RNN等），還是任務(wù)（分類(lèi)、NLP等）和標(biāo)準(zhǔn)（損失率、精度）都不一樣。

此外，batchsize也考慮在內(nèi)（看來(lái)實(shí)驗(yàn)機(jī)器性能不錯(cuò)）。制作這些測(cè)試的目的在于，多角度考量出這些優(yōu)化方法的合理性。

測(cè)試按照下圖流程走，整體算下來(lái)，共有1344種配置，共運(yùn)行接近35000次。

為了得知哪種優(yōu)化方法更合適，這樣做也是很拼了。

如何選擇適合自己的優(yōu)化方法？

那么，具體如何選擇適合的優(yōu)化方法呢？

下圖是作者隨機(jī)選取的14個(gè)優(yōu)化器。

下圖是這些優(yōu)化器在上面8種基準(zhǔn)測(cè)試下的表現(xiàn)結(jié)果。

其中，紅色的I表示誤差范圍。可以看出，在一定誤差范圍內(nèi)，某一類(lèi)優(yōu)化方法的性能幾乎非常相似：它們?cè)诟鞣N基準(zhǔn)測(cè)試上的表現(xiàn)都不錯(cuò)。

為了驗(yàn)證這些測(cè)試方法的穩(wěn)定性，作者特意對(duì)其中一些算法進(jìn)行了參數(shù)調(diào)整，下圖是經(jīng)典算法RMSProp和RMSProp（2）的調(diào)優(yōu)結(jié)果。

可見(jiàn)，不同的參數(shù)能給優(yōu)化算法的性能帶來(lái)不小的波動(dòng)變化。

更直接地，如果增加（性能）預(yù)算，從下圖可以看出，性能的改進(jìn)也會(huì)有所增加。（圖中橙色為所有灰線(xiàn)的中值）

也就是說(shuō)，即使優(yōu)化算法的性能不錯(cuò)，合理調(diào)參仍然不可或缺。

那么，到底有多少優(yōu)化器存在“改進(jìn)參數(shù)，竟然能大幅增加優(yōu)化能力”的問(wèn)題呢？

還不少。

從下圖來(lái)看，綠色表示優(yōu)化過(guò)后，優(yōu)化算法能更好地運(yùn)行。

換而言之，只要某種優(yōu)化算法的結(jié)果是一片綠，那么它原來(lái)的默認(rèn)參數(shù)就真的很糟糕……

例如，AMSGrad、Mom、NAG的默認(rèn)參數(shù)都存在很大的改進(jìn)空間。相比而言，AMSBound由于自適應(yīng)，默認(rèn)參數(shù)都還非常不錯(cuò)，不需要再有大改進(jìn)。

對(duì)這些優(yōu)化器進(jìn)行評(píng)估后，研究者們得出以下幾個(gè)結(jié)論：

1、優(yōu)化器的性能，在不同的任務(wù)中有很大差異；

2、事實(shí)上，大部分優(yōu)化器的性能驚人地相似，目前尚沒(méi)有“最通用”的優(yōu)化方法；

3、對(duì)優(yōu)化器進(jìn)行（參數(shù)）微調(diào)，其實(shí)和選擇優(yōu)化器一樣重要、甚至更重要。

不過(guò)，雖然這份表格已經(jīng)非常詳細(xì)，還是有細(xì)心的網(wǎng)友發(fā)現(xiàn)了盲點(diǎn)：像SWA這樣非常簡(jiǎn)單高效的方法，還是在分析時(shí)被遺漏了。

當(dāng)然，就提出的幾種基準(zhǔn)測(cè)試來(lái)說(shuō)，已經(jīng)適合用于分析大部分優(yōu)化器的選擇方案。

目前，作者已經(jīng)在A(yíng)rXiv論文頁(yè)面，開(kāi)源了基準(zhǔn)測(cè)試方法的Code，感興趣的小伙伴可戳論文地址查看~

作者介紹

這幾位作者都來(lái)自于德國(guó)圖賓根大學(xué)。

Robin M. Schmidt，計(jì)算機(jī)專(zhuān)業(yè)研究生，主要研究方向是人工智能，感興趣的方向在深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)及優(yōu)化上。

Philipp Hennig，機(jī)器學(xué)習(xí)教授，兼任馬普所科學(xué)家，曾于海德堡大學(xué)和帝國(guó)理工學(xué)院修讀物理，并在劍橋大學(xué)獲得機(jī)器學(xué)習(xí)博士學(xué)位。

Frank Schneider，機(jī)器學(xué)習(xí)博士生，研究領(lǐng)域是機(jī)器學(xué)習(xí)的優(yōu)化方法。目前在鉆研深度學(xué)習(xí)的超參數(shù)，使深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練自動(dòng)化。

論文地址：
https://arxiv.org/abs/2007.01547

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

優(yōu)化器深度學(xué)習(xí) 神經(jīng)網(wǎng)絡(luò)

蕭簫

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

建神經(jīng)網(wǎng)絡(luò)模型，哪種優(yōu)化算法更好？35000次測(cè)試告訴你丨圖賓根大學(xué)出品

優(yōu)化方法具體都有哪幾種？

8種基準(zhǔn)測(cè)試方法

如何選擇適合自己的優(yōu)化方法？

作者介紹

相關(guān)閱讀

Scaling Law百度最早提出！OpenAI/Claude受它啟發(fā)，致謝中有Ilya

ICML新研究提出泛化能力評(píng)估新指標(biāo)：直接上向量余弦距離就OK，還開(kāi)源了相關(guān)代碼

MEET2021 | 地平線(xiàn)黃暢：軟件2.0時(shí)代，數(shù)據(jù)驅(qū)動(dòng)進(jìn)化，算力將成為智能化的基石

最全中文深度學(xué)習(xí)入門(mén)書(shū)：小白易入，課程代碼PPT全有 | 復(fù)旦出品

不用GPU，稀疏化也能加速你的YOLOv3深度學(xué)習(xí)模型

華為昇思AI挑戰(zhàn)賽，6萬(wàn)獎(jiǎng)金、3大賽道、參與即有獎(jiǎng)｜競(jìng)賽報(bào)名

熱門(mén)文章

谷歌版小鋼炮開(kāi)源！0.27B大模型，4個(gè)注意力頭，專(zhuān)為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬(wàn)美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

國(guó)家級(jí)AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬(wàn)元獎(jiǎng)金池+全場(chǎng)景賽道，沖線(xiàn)團(tuán)隊(duì)速來(lái)

GPT-5超越人類(lèi)醫(yī)生！推理能力比專(zhuān)家高出24%，理解力強(qiáng)29%

百度AICA第9期開(kāi)課：18大行業(yè)96位首席AI架構(gòu)師齊探AI產(chǎn)業(yè)落地

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

建神經(jīng)網(wǎng)絡(luò)模型，哪種優(yōu)化算法更好？35000次測(cè)試告訴你丨圖賓根大學(xué)出品

優(yōu)化方法具體都有哪幾種？

8種基準(zhǔn)測(cè)試方法

如何選擇適合自己的優(yōu)化方法？

作者介紹

相關(guān)閱讀

Scaling Law百度最早提出！OpenAI/Claude受它啟發(fā)，致謝中有Ilya

ICML新研究提出泛化能力評(píng)估新指標(biāo)：直接上向量余弦距離就OK，還開(kāi)源了相關(guān)代碼

MEET2021 | 地平線(xiàn)黃暢：軟件2.0時(shí)代，數(shù)據(jù)驅(qū)動(dòng)進(jìn)化，算力將成為智能化的基石

最全中文深度學(xué)習(xí)入門(mén)書(shū)：小白易入，課程代碼PPT全有 | 復(fù)旦出品

不用GPU，稀疏化也能加速你的YOLOv3深度學(xué)習(xí)模型

華為昇思AI挑戰(zhàn)賽，6萬(wàn)獎(jiǎng)金、3大賽道、參與即有獎(jiǎng)｜競(jìng)賽報(bào)名

熱門(mén)文章

谷歌版小鋼炮開(kāi)源！0.27B大模型，4個(gè)注意力頭，專(zhuān)為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬(wàn)美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

國(guó)家級(jí)AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬(wàn)元獎(jiǎng)金池+全場(chǎng)景賽道，沖線(xiàn)團(tuán)隊(duì)速來(lái)

GPT-5超越人類(lèi)醫(yī)生！推理能力比專(zhuān)家高出24%，理解力強(qiáng)29%

百度AICA第9期開(kāi)課：18大行業(yè)96位首席AI架構(gòu)師齊探AI產(chǎn)業(yè)落地

建神經(jīng)網(wǎng)絡(luò)模型，哪種優(yōu)化算法更好？35000次測(cè)試告訴你丨圖賓根大學(xué)出品

優(yōu)化方法具體都有哪幾種？

如何選擇適合自己的優(yōu)化方法？

Scaling Law百度最早提出！OpenAI/Claude受它啟發(fā)，致謝中有Ilya

ICML新研究提出泛化能力評(píng)估新指標(biāo)：直接上向量余弦距離就OK，還開(kāi)源了相關(guān)代碼

MEET2021 | 地平線(xiàn)黃暢：軟件2.0時(shí)代，數(shù)據(jù)驅(qū)動(dòng)進(jìn)化，算力將成為智能化的基石

最全中文深度學(xué)習(xí)入門(mén)書(shū)：小白易入，課程代碼PPT全有 | 復(fù)旦出品

華為昇思AI挑戰(zhàn)賽，6萬(wàn)獎(jiǎng)金、3大賽道、參與即有獎(jiǎng)｜競(jìng)賽報(bào)名

谷歌版小鋼炮開(kāi)源！0.27B大模型，4個(gè)注意力頭，專(zhuān)為終端而生

文遠(yuǎn)知行獲Grab投資數(shù)千萬(wàn)美元，雙方將合作在東南亞大規(guī)模部署Robotaxi

國(guó)家級(jí)AI創(chuàng)新應(yīng)用賽事殺瘋了！超200萬(wàn)元獎(jiǎng)金池+全場(chǎng)景賽道，沖線(xiàn)團(tuán)隊(duì)速來(lái)

GPT-5超越人類(lèi)醫(yī)生！推理能力比專(zhuān)家高出24%，理解力強(qiáng)29%