何愷明團隊最新力作RegNet:超越EfficientNet,GPU上提速5倍,這是網(wǎng)絡(luò)設(shè)計新范式 | CVPR 2020
魚羊 十三 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
大神(組團)出奇招,踢館各路神經(jīng)網(wǎng)絡(luò)。
還是熟悉的團隊,還是熟悉的署名,F(xiàn)acebook AI實驗室,推陳出新挑戰(zhàn)新的網(wǎng)絡(luò)設(shè)計范式。
嗯,熟悉的Ross,熟悉的何愷明,他們帶來全新的——RegNet。
不僅網(wǎng)絡(luò)設(shè)計范式與當(dāng)前主流“背道而馳”:簡單、易理解的模型,也可以hold住高計算量。
而且在類似的條件下,性能還要優(yōu)于EfficientNet,在GPU上的速度還提高了5倍!
新的網(wǎng)絡(luò)設(shè)計范式,結(jié)合了手動設(shè)計網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)搜索?(NAS)的優(yōu)點:
和手動設(shè)計網(wǎng)絡(luò)一樣,其目標(biāo)是可解釋性,可以描述一些簡單網(wǎng)絡(luò)的一般設(shè)計原則,并在各種設(shè)置中泛化。
又和NAS一樣,能利用半自動過程,來找到易于理解、構(gòu)建和泛化的簡單模型。
論文毫無疑問也中了CVPR 2020。
PS:論文是3月30日在arXiv發(fā)布,So 大家不用擔(dān)心是愚人節(jié)的玩笑……
三組實驗對比,近乎“大滿貫”
RegNet在性能上就是如此突出。
實驗在ImageNet數(shù)據(jù)集上進行,目標(biāo)非常清晰:挑戰(zhàn)各種環(huán)境下的神經(jīng)網(wǎng)絡(luò)。
我們先來看下,與一眾流行移動端神經(jīng)網(wǎng)絡(luò)的比較。
最近,許多網(wǎng)絡(luò)設(shè)計工作都集中在移動機制(mobile regime,~600MF)。
上表就是600MF的RegNet,與這些網(wǎng)絡(luò)比較的結(jié)果。可以看出,無論是基于手動設(shè)計還是NAS的網(wǎng)絡(luò),RegNe的表現(xiàn)都很出色。
何愷明團隊強調(diào),RegNet模型使用基本的100 epoch調(diào)度(schedule),除了權(quán)重衰減外,沒有使用任何正則化。
而大多數(shù)移動網(wǎng)絡(luò)使用更長的調(diào)度,并進行了各種增強,例如深度監(jiān)督、Cutout、DropPath等等。
接下來,是RegNet與標(biāo)準(zhǔn)基線ResNet和ResNeXT的比較。
為了公平起見,研究人員在相同的訓(xùn)練設(shè)置下,對它們進行對比,如下圖所示:
總體來看,通過優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),RegNet模型在所有復(fù)雜度指標(biāo)下,都有了較大的改進。
研究人員還強調(diào),良好的RegNet模型還適用于廣泛的計算環(huán)境,包括ResNet和ResNeXT都不太適應(yīng)的低計算環(huán)境。
在上表(a)中,展示了按照activation分組的比較。
研究人員將activation定義為所有conv層的輸出張量的大小,它會對像GPU這樣的加速程度運行有較大的影響。
研究人員表示,這樣設(shè)置的意義非常大,因為模型訓(xùn)練時間是一個瓶頸。未來可能在自動駕駛這樣場景中,對改進推理時間有所幫助。給定固定的推理或訓(xùn)練時間,RegNet非常有效。
而在上表(b)中,展示了按照flops分組的比較。
最后,是RegNet與EfficientNet的比較。
EfficientNet,代表了當(dāng)前最流行的技術(shù),對比結(jié)果如下圖所示:
可以看到,在flops較低時,EfficientNet還有優(yōu)勢,但是隨著flops的增大,RegNetX和RegNetY逐漸發(fā)力。
除此之外,何愷明團隊發(fā)現(xiàn),對于EfficentNet,activation與flops成線性關(guān)系;而對于RegNet,activation與flops的平方根成線性關(guān)系。
這就導(dǎo)致了EfficiententNet的GPU訓(xùn)練和推斷速度變慢。而RegNeTX-8000比Efficient entNet-B5 快5倍,同時具有更低的誤差,如下表所示:
如此性能,接下來問題來了,RegNet 究竟怎樣煉成?
先構(gòu)建網(wǎng)絡(luò)設(shè)計空間
這里首先介紹一下 Radosavovic 等人提出的網(wǎng)絡(luò)設(shè)計空間(network design spaces)概念。
其核心思想是,可以在設(shè)計空間中對模型進行采樣,從而產(chǎn)生模型分布,并可以使用經(jīng)典統(tǒng)計學(xué)中的工具來分析設(shè)計空間。
在何愷明團隊的這項研究中,研究人員提出,設(shè)計一個不受限制的初始設(shè)計空間的逐步簡化版本。這一過程,就稱為設(shè)計空間設(shè)計(design space design)。
在設(shè)計過程的每個步驟中,輸入都是初始設(shè)計空間,輸出則是更簡單、或性能更好的模型的精簡模型。
通過對模型進行采樣,并檢查其誤差分布,即可表征設(shè)計空間的質(zhì)量。
比如,在上圖中,從初始設(shè)計空間A開始,應(yīng)用2個優(yōu)化步驟來生成設(shè)計空間B,然后是C。
C?B?A,可以看到,從A到B再到C,誤差分布逐漸改善。
也就是說,每個設(shè)計步驟的目的,都是為了發(fā)現(xiàn)能夠產(chǎn)生更簡單、更有效模型的設(shè)計原理。
研究人員設(shè)計的初始設(shè)計空間是AnyNet。
網(wǎng)絡(luò)基本設(shè)計很簡單:主干(步幅為 2 的 3×3 卷積,32個輸出通道)+ 執(zhí)行大量計算的網(wǎng)絡(luò)主體 + 預(yù)測輸出類別的頭(平均池化,接著完全連接層)。
網(wǎng)絡(luò)主體由一系列階段組成,這些階段以逐漸降低的分辨率運行。
除了第一個區(qū)塊(使用 2 步長卷積)以外,每個階段都包含一系列相同的區(qū)塊。
雖然總體結(jié)構(gòu)很簡單,但 AnyNet 設(shè)計空間中可能存在的網(wǎng)絡(luò)總數(shù)很龐大。
實驗大多使用帶有分組卷積的標(biāo)準(zhǔn)殘差瓶頸塊,研究人員稱其為X block,在其基礎(chǔ)上構(gòu)建的 AnyNet 設(shè)計空間稱為 AnyNetX。
在 AnyNetX 上,研究人員旨在實現(xiàn)4個目的:
- 簡化設(shè)計空間結(jié)構(gòu)
- 提高設(shè)計空間的可解釋性
- 改善或維持設(shè)計空間的質(zhì)量
- 保持設(shè)計空間的模型多樣性
于是,將初始的 AnyNetX 稱作 AnyNetXA,開始進行“A→B→C→D→E”的優(yōu)化過程。
首先,針對 AnyNetXA 設(shè)計空間的所有階段,測試共享瓶頸率(bottleneck ratio)bi = b,將得到的設(shè)計空間成為 AnyNetXB。
同樣,在相同設(shè)置下,從 AnyNetXB 采樣并訓(xùn)練 500 個模型。
AnyNetXA 和 AnyNetXB 在平均情況和最佳情況下,EDF幾乎不變。說明耦合 bi 時精度沒有損失。并且,AnyNetXB 更易于分析。
緊接著,從AnyNetXB開始,為所有階段使用共享組寬度(shared group width),來獲得 AnyNetXC。
與前面一樣,EDF幾乎沒有發(fā)生變化。
而后,研究人員在 AnyNetXC 中檢驗好網(wǎng)絡(luò)和壞網(wǎng)絡(luò)的典型網(wǎng)絡(luò)結(jié)構(gòu)。
他們發(fā)現(xiàn):好網(wǎng)絡(luò)的寬度是呈增長態(tài)勢的。
于是,他們加入了設(shè)計原則 wi + 1 ≥ wi,將具有此約束條件的設(shè)計空間稱為 AnyNetXD。
這大大改善了EDF。
△左:AnyNetXD,右:AnyNetXE
對于最佳模型,不僅僅是階段寬度 wi 在增加,研究人員發(fā)現(xiàn),階段深度 di 也有同樣的趨勢,最后一階段除外。
于是,在加入 di + 1 ≥ di 的約束條件之后,結(jié)果再一次改善。即 AnyNetXE。
在對 AnyNetXE 的進一步觀察中,就引出了 RegNet 的一個核心觀點:好網(wǎng)絡(luò)的寬度和深度是可以用量化的線性函數(shù)來解釋的。
從 AnyNetXA 到 RegNetX,維度從16維降至6維,尺寸減小了近10個數(shù)量級。
從下圖中可以看出,RegNetX 中的模型相比于 AnyNetX 中的模型,平均誤差更低。并且,RegNetX 的隨機搜索效率要高得多,搜索約32個隨機模型就能產(chǎn)生好的模型。
設(shè)計空間泛化
一開始,為了提高效率,研究人員以低計算量、low-epoch 的訓(xùn)練方式設(shè)計了 RegNet 設(shè)計空間。
但是,他們的目標(biāo)不是針對某一特定環(huán)境,而是發(fā)現(xiàn)網(wǎng)絡(luò)設(shè)計的一般原理。
于是,他們在更高的 flops、更高的 epoch 的 5 步長網(wǎng)絡(luò)中,以及各種不同類型的區(qū)塊中,比較了 RegNetX 和 AnyNetXA、AnyNetXE。
在所有情況下,設(shè)計空間都沒有出現(xiàn)過擬合現(xiàn)象。
也就是說,RegNet 具有良好的泛化能力。
最后,還是照慣例來介紹下這支AI研究夢之隊吧。
熟悉的面孔,熟悉的團隊
Ross和何愷明,這個組合很熟悉了。
這次的五位作者,全部來自Facebook AI研究院。
論文一作,Ilija Radosavovic,倫敦帝國理工學(xué)院本科生助教,曾在Facebook實習(xí)。
Raj Prateek Kosaraju和Ross Girshick,博士分別畢業(yè)于佐治亞理工學(xué)院和芝加哥大學(xué),都是FAIR計算機視覺方向的科學(xué)家。
最后一位作者Piotr Dollar,博士畢業(yè)于美國加州大學(xué)圣迭戈分校,目前也就職于FAIR。
中國人民最熟悉的自然是天才AI研究員何愷明了。
而且此次何愷明團隊提出的RegNet,從名字上看,也神似自己當(dāng)年的力作——ResNet——2016年CVPR最佳論文獎。
除此之外,Kaiming大神也分別在2009年和2017年,獲得了CVPR和ICCV最佳論文獎,至今仍難有后來者。
(繼續(xù)膜拜ing……)
有意思的是,在此次研究中,還以ResNet作為了基線做對比。
不過也不意外,從近幾年的研究來看,何愷明也在不斷突破自己以前的方法、研究。
在超越何愷明的道路上,目前跑得最快的,依然是何愷明自己。
嗯,大神的快樂,就是這么樸實無華,且低調(diào)。
我們先膜為敬,如何評價RegNet就留給大家啦~
傳送門
論文地址:https://arxiv.org/pdf/2003.13678.pdf
— 完 —