何愷明團(tuán)隊(duì)最新力作RegNet:超越EfficientNet,GPU上提速5倍,這是網(wǎng)絡(luò)設(shè)計(jì)新范式 | CVPR 2020
魚羊 十三 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
大神(組團(tuán))出奇招,踢館各路神經(jīng)網(wǎng)絡(luò)。
還是熟悉的團(tuán)隊(duì),還是熟悉的署名,F(xiàn)acebook AI實(shí)驗(yàn)室,推陳出新挑戰(zhàn)新的網(wǎng)絡(luò)設(shè)計(jì)范式。
嗯,熟悉的Ross,熟悉的何愷明,他們帶來(lái)全新的——RegNet。
不僅網(wǎng)絡(luò)設(shè)計(jì)范式與當(dāng)前主流“背道而馳”:簡(jiǎn)單、易理解的模型,也可以hold住高計(jì)算量。
而且在類似的條件下,性能還要優(yōu)于EfficientNet,在GPU上的速度還提高了5倍!
新的網(wǎng)絡(luò)設(shè)計(jì)范式,結(jié)合了手動(dòng)設(shè)計(jì)網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)搜索?(NAS)的優(yōu)點(diǎn):
和手動(dòng)設(shè)計(jì)網(wǎng)絡(luò)一樣,其目標(biāo)是可解釋性,可以描述一些簡(jiǎn)單網(wǎng)絡(luò)的一般設(shè)計(jì)原則,并在各種設(shè)置中泛化。
又和NAS一樣,能利用半自動(dòng)過(guò)程,來(lái)找到易于理解、構(gòu)建和泛化的簡(jiǎn)單模型。
論文毫無(wú)疑問(wèn)也中了CVPR 2020。
PS:論文是3月30日在arXiv發(fā)布,So 大家不用擔(dān)心是愚人節(jié)的玩笑……
三組實(shí)驗(yàn)對(duì)比,近乎“大滿貫”
RegNet在性能上就是如此突出。
實(shí)驗(yàn)在ImageNet數(shù)據(jù)集上進(jìn)行,目標(biāo)非常清晰:挑戰(zhàn)各種環(huán)境下的神經(jīng)網(wǎng)絡(luò)。
我們先來(lái)看下,與一眾流行移動(dòng)端神經(jīng)網(wǎng)絡(luò)的比較。
最近,許多網(wǎng)絡(luò)設(shè)計(jì)工作都集中在移動(dòng)機(jī)制(mobile regime,~600MF)。
上表就是600MF的RegNet,與這些網(wǎng)絡(luò)比較的結(jié)果??梢钥闯?,無(wú)論是基于手動(dòng)設(shè)計(jì)還是NAS的網(wǎng)絡(luò),RegNe的表現(xiàn)都很出色。
何愷明團(tuán)隊(duì)強(qiáng)調(diào),RegNet模型使用基本的100 epoch調(diào)度(schedule),除了權(quán)重衰減外,沒(méi)有使用任何正則化。
而大多數(shù)移動(dòng)網(wǎng)絡(luò)使用更長(zhǎng)的調(diào)度,并進(jìn)行了各種增強(qiáng),例如深度監(jiān)督、Cutout、DropPath等等。
接下來(lái),是RegNet與標(biāo)準(zhǔn)基線ResNet和ResNeXT的比較。
為了公平起見(jiàn),研究人員在相同的訓(xùn)練設(shè)置下,對(duì)它們進(jìn)行對(duì)比,如下圖所示:
總體來(lái)看,通過(guò)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),RegNet模型在所有復(fù)雜度指標(biāo)下,都有了較大的改進(jìn)。
研究人員還強(qiáng)調(diào),良好的RegNet模型還適用于廣泛的計(jì)算環(huán)境,包括ResNet和ResNeXT都不太適應(yīng)的低計(jì)算環(huán)境。
在上表(a)中,展示了按照activation分組的比較。
研究人員將activation定義為所有conv層的輸出張量的大小,它會(huì)對(duì)像GPU這樣的加速程度運(yùn)行有較大的影響。
研究人員表示,這樣設(shè)置的意義非常大,因?yàn)槟P陀?xùn)練時(shí)間是一個(gè)瓶頸。未來(lái)可能在自動(dòng)駕駛這樣場(chǎng)景中,對(duì)改進(jìn)推理時(shí)間有所幫助。給定固定的推理或訓(xùn)練時(shí)間,RegNet非常有效。
而在上表(b)中,展示了按照f(shuō)lops分組的比較。
最后,是RegNet與EfficientNet的比較。
EfficientNet,代表了當(dāng)前最流行的技術(shù),對(duì)比結(jié)果如下圖所示:
可以看到,在flops較低時(shí),EfficientNet還有優(yōu)勢(shì),但是隨著flops的增大,RegNetX和RegNetY逐漸發(fā)力。
除此之外,何愷明團(tuán)隊(duì)發(fā)現(xiàn),對(duì)于EfficentNet,activation與flops成線性關(guān)系;而對(duì)于RegNet,activation與flops的平方根成線性關(guān)系。
這就導(dǎo)致了EfficiententNet的GPU訓(xùn)練和推斷速度變慢。而RegNeTX-8000比Efficient entNet-B5 快5倍,同時(shí)具有更低的誤差,如下表所示:
如此性能,接下來(lái)問(wèn)題來(lái)了,RegNet 究竟怎樣煉成?
先構(gòu)建網(wǎng)絡(luò)設(shè)計(jì)空間
這里首先介紹一下 Radosavovic 等人提出的網(wǎng)絡(luò)設(shè)計(jì)空間(network design spaces)概念。
其核心思想是,可以在設(shè)計(jì)空間中對(duì)模型進(jìn)行采樣,從而產(chǎn)生模型分布,并可以使用經(jīng)典統(tǒng)計(jì)學(xué)中的工具來(lái)分析設(shè)計(jì)空間。
在何愷明團(tuán)隊(duì)的這項(xiàng)研究中,研究人員提出,設(shè)計(jì)一個(gè)不受限制的初始設(shè)計(jì)空間的逐步簡(jiǎn)化版本。這一過(guò)程,就稱為設(shè)計(jì)空間設(shè)計(jì)(design space design)。
在設(shè)計(jì)過(guò)程的每個(gè)步驟中,輸入都是初始設(shè)計(jì)空間,輸出則是更簡(jiǎn)單、或性能更好的模型的精簡(jiǎn)模型。
通過(guò)對(duì)模型進(jìn)行采樣,并檢查其誤差分布,即可表征設(shè)計(jì)空間的質(zhì)量。
比如,在上圖中,從初始設(shè)計(jì)空間A開(kāi)始,應(yīng)用2個(gè)優(yōu)化步驟來(lái)生成設(shè)計(jì)空間B,然后是C。
C?B?A,可以看到,從A到B再到C,誤差分布逐漸改善。
也就是說(shuō),每個(gè)設(shè)計(jì)步驟的目的,都是為了發(fā)現(xiàn)能夠產(chǎn)生更簡(jiǎn)單、更有效模型的設(shè)計(jì)原理。
研究人員設(shè)計(jì)的初始設(shè)計(jì)空間是AnyNet。
網(wǎng)絡(luò)基本設(shè)計(jì)很簡(jiǎn)單:主干(步幅為 2 的 3×3 卷積,32個(gè)輸出通道)+ 執(zhí)行大量計(jì)算的網(wǎng)絡(luò)主體 + 預(yù)測(cè)輸出類別的頭(平均池化,接著完全連接層)。
網(wǎng)絡(luò)主體由一系列階段組成,這些階段以逐漸降低的分辨率運(yùn)行。
除了第一個(gè)區(qū)塊(使用 2 步長(zhǎng)卷積)以外,每個(gè)階段都包含一系列相同的區(qū)塊。
雖然總體結(jié)構(gòu)很簡(jiǎn)單,但 AnyNet 設(shè)計(jì)空間中可能存在的網(wǎng)絡(luò)總數(shù)很龐大。
實(shí)驗(yàn)大多使用帶有分組卷積的標(biāo)準(zhǔn)殘差瓶頸塊,研究人員稱其為X block,在其基礎(chǔ)上構(gòu)建的 AnyNet 設(shè)計(jì)空間稱為 AnyNetX。
在 AnyNetX 上,研究人員旨在實(shí)現(xiàn)4個(gè)目的:
- 簡(jiǎn)化設(shè)計(jì)空間結(jié)構(gòu)
- 提高設(shè)計(jì)空間的可解釋性
- 改善或維持設(shè)計(jì)空間的質(zhì)量
- 保持設(shè)計(jì)空間的模型多樣性
于是,將初始的 AnyNetX 稱作 AnyNetXA,開(kāi)始進(jìn)行“A→B→C→D→E”的優(yōu)化過(guò)程。
首先,針對(duì) AnyNetXA 設(shè)計(jì)空間的所有階段,測(cè)試共享瓶頸率(bottleneck ratio)bi = b,將得到的設(shè)計(jì)空間成為 AnyNetXB。
同樣,在相同設(shè)置下,從 AnyNetXB 采樣并訓(xùn)練 500 個(gè)模型。
AnyNetXA 和 AnyNetXB 在平均情況和最佳情況下,EDF幾乎不變。說(shuō)明耦合 bi 時(shí)精度沒(méi)有損失。并且,AnyNetXB 更易于分析。
緊接著,從AnyNetXB開(kāi)始,為所有階段使用共享組寬度(shared group width),來(lái)獲得 AnyNetXC。
與前面一樣,EDF幾乎沒(méi)有發(fā)生變化。
而后,研究人員在 AnyNetXC 中檢驗(yàn)好網(wǎng)絡(luò)和壞網(wǎng)絡(luò)的典型網(wǎng)絡(luò)結(jié)構(gòu)。
他們發(fā)現(xiàn):好網(wǎng)絡(luò)的寬度是呈增長(zhǎng)態(tài)勢(shì)的。
于是,他們加入了設(shè)計(jì)原則 wi + 1 ≥ wi,將具有此約束條件的設(shè)計(jì)空間稱為 AnyNetXD。
這大大改善了EDF。
△左:AnyNetXD,右:AnyNetXE
對(duì)于最佳模型,不僅僅是階段寬度 wi 在增加,研究人員發(fā)現(xiàn),階段深度 di 也有同樣的趨勢(shì),最后一階段除外。
于是,在加入 di + 1 ≥ di 的約束條件之后,結(jié)果再一次改善。即 AnyNetXE。
在對(duì) AnyNetXE 的進(jìn)一步觀察中,就引出了 RegNet 的一個(gè)核心觀點(diǎn):好網(wǎng)絡(luò)的寬度和深度是可以用量化的線性函數(shù)來(lái)解釋的。
從 AnyNetXA 到 RegNetX,維度從16維降至6維,尺寸減小了近10個(gè)數(shù)量級(jí)。
從下圖中可以看出,RegNetX 中的模型相比于 AnyNetX 中的模型,平均誤差更低。并且,RegNetX 的隨機(jī)搜索效率要高得多,搜索約32個(gè)隨機(jī)模型就能產(chǎn)生好的模型。
設(shè)計(jì)空間泛化
一開(kāi)始,為了提高效率,研究人員以低計(jì)算量、low-epoch 的訓(xùn)練方式設(shè)計(jì)了 RegNet 設(shè)計(jì)空間。
但是,他們的目標(biāo)不是針對(duì)某一特定環(huán)境,而是發(fā)現(xiàn)網(wǎng)絡(luò)設(shè)計(jì)的一般原理。
于是,他們?cè)诟叩?flops、更高的 epoch 的 5 步長(zhǎng)網(wǎng)絡(luò)中,以及各種不同類型的區(qū)塊中,比較了 RegNetX 和 AnyNetXA、AnyNetXE。
在所有情況下,設(shè)計(jì)空間都沒(méi)有出現(xiàn)過(guò)擬合現(xiàn)象。
也就是說(shuō),RegNet 具有良好的泛化能力。
最后,還是照慣例來(lái)介紹下這支AI研究夢(mèng)之隊(duì)吧。
熟悉的面孔,熟悉的團(tuán)隊(duì)
Ross和何愷明,這個(gè)組合很熟悉了。
這次的五位作者,全部來(lái)自Facebook AI研究院。
論文一作,Ilija Radosavovic,倫敦帝國(guó)理工學(xué)院本科生助教,曾在Facebook實(shí)習(xí)。
Raj Prateek Kosaraju和Ross Girshick,博士分別畢業(yè)于佐治亞理工學(xué)院和芝加哥大學(xué),都是FAIR計(jì)算機(jī)視覺(jué)方向的科學(xué)家。
最后一位作者Piotr Dollar,博士畢業(yè)于美國(guó)加州大學(xué)圣迭戈分校,目前也就職于FAIR。
中國(guó)人民最熟悉的自然是天才AI研究員何愷明了。
而且此次何愷明團(tuán)隊(duì)提出的RegNet,從名字上看,也神似自己當(dāng)年的力作——ResNet——2016年CVPR最佳論文獎(jiǎng)。
除此之外,Kaiming大神也分別在2009年和2017年,獲得了CVPR和ICCV最佳論文獎(jiǎng),至今仍難有后來(lái)者。
(繼續(xù)膜拜ing……)
有意思的是,在此次研究中,還以ResNet作為了基線做對(duì)比。
不過(guò)也不意外,從近幾年的研究來(lái)看,何愷明也在不斷突破自己以前的方法、研究。
在超越何愷明的道路上,目前跑得最快的,依然是何愷明自己。
嗯,大神的快樂(lè),就是這么樸實(shí)無(wú)華,且低調(diào)。
我們先膜為敬,如何評(píng)價(jià)RegNet就留給大家啦~
傳送門
論文地址:https://arxiv.org/pdf/2003.13678.pdf
— 完 —
- 標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了!首創(chuàng)層次化評(píng)價(jià)體系,告別“誰(shuí)的demo更吸睛”主觀評(píng)估2025-08-16
- 阿里閃電入局Agent Infra!智能體新基建亮相WAIC,“超級(jí)大腦”開(kāi)箱即用2025-07-31
- 世紀(jì)華通謝斐:在“三大平衡”中領(lǐng)跑,實(shí)現(xiàn)游戲行業(yè)更高質(zhì)量的發(fā)展2025-08-01
- 1.5B參數(shù)撬動(dòng)“吉卜力級(jí)”全能體驗(yàn),國(guó)產(chǎn)開(kāi)源之光多模態(tài)統(tǒng)一模型,來(lái)了2025-07-30