谷歌大腦最新研究:用AutoML的方式自動(dòng)學(xué)習(xí)Dropout模式,再也不用手動(dòng)設(shè)計(jì)
Quoc V. Le出品
魚羊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
深度神經(jīng)網(wǎng)絡(luò)往往存在過(guò)擬合的問(wèn)題,需要Dropout、權(quán)重衰減這樣的正則化方法的加持。
而最近的研究表明,如果對(duì)Dropout“剪掉”的神經(jīng)元的結(jié)構(gòu)進(jìn)行利用,就能實(shí)現(xiàn)比隨機(jī)替換更好的效果。
問(wèn)題是,實(shí)際應(yīng)用中,針對(duì)不同的問(wèn)題,利用結(jié)構(gòu)的方法需要人工設(shè)計(jì),對(duì)Dropout的模式進(jìn)行調(diào)整,泛化能力不足。
那么,是否能設(shè)計(jì)一種針對(duì)CNN、Transformer這樣的深度神經(jīng)網(wǎng)絡(luò),自動(dòng)學(xué)習(xí)Dropout模式的方法?
現(xiàn)在,谷歌大神Quoc V. Le的團(tuán)隊(duì),就提出了一種名為AutoDropout的方法。
相關(guān)論文已經(jīng)入選AAAI 2021。
將設(shè)計(jì)Dropout模式的過(guò)程自動(dòng)化
AutoDropout的主要目的,就是將設(shè)計(jì)針對(duì)專門場(chǎng)景的Dropout模式這件事自動(dòng)化。
研究人員為此設(shè)計(jì)了一個(gè)新的結(jié)構(gòu)化Dropout模式的搜索空間。這個(gè)搜索空間囊括了許多現(xiàn)有的Dropout模式。
不妨先以CNN為例,來(lái)看一下該方法是如何實(shí)現(xiàn)的。
CNN中的Dropout模式搜索空間
在CNN中,搜索空間的基本模式是一個(gè)連續(xù)的矩形,矩形經(jīng)過(guò)平鋪,就會(huì)產(chǎn)生一個(gè)Dropout模式。
定義矩形的超參數(shù),是高度和寬度;而定義平鋪的超參數(shù),是步幅和重復(fù)次數(shù)。
除了對(duì)矩形進(jìn)行平鋪之外,還需要將兩個(gè)幾何變換引入搜索空間:圍繞空間中心旋轉(zhuǎn),沿著每個(gè)空間維度進(jìn)行剪切。
在得到dropout模式之后,研究人員將其應(yīng)用于批量歸一化層的輸出——根據(jù)研究人員的經(jīng)驗(yàn),在網(wǎng)絡(luò)的其他地方進(jìn)行應(yīng)用,往往會(huì)導(dǎo)致搜索過(guò)程中訓(xùn)練的不穩(wěn)定。
如果CNN中存在殘差連接,控制器則會(huì)進(jìn)一步判斷,是否把dropout模式應(yīng)用到殘差分支中。
控制器模型和搜索算法
AutoDropout的控制器是通過(guò)強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練的。
控制器實(shí)際上是一個(gè)Transformer網(wǎng)絡(luò)。該網(wǎng)絡(luò)生成token以描述Dropout模式的配置。
如下圖所示,對(duì)于CNN中的每一層,都需要8個(gè)token來(lái)創(chuàng)建Dropout模式。
不過(guò),這樣搜索算法可能需要花費(fèi)大量的時(shí)間進(jìn)行訓(xùn)練,為此,研究人員也進(jìn)行了并行性方面的改善工作。
Transformer中的Dropout模式搜索空間
這樣的方法同樣適用于Transformer。
與CNN中最大的不同在于,搜索空間中的dropout模式可以靈活地應(yīng)用于Transformer層的多個(gè)子層,比如query、key、value、softmax、輸出投影和殘差等。
因此,研究人員針對(duì)每一個(gè)子層,各自應(yīng)用了獨(dú)立的dropout模式。
實(shí)驗(yàn)結(jié)果
為了驗(yàn)證AutoDropout的效果,研究人員分別在CNN和Transformer模型中應(yīng)用了AutoDropout。
對(duì)于CNN,主要應(yīng)用在有監(jiān)督圖像分類任務(wù)和半監(jiān)督圖像分類任務(wù)。
對(duì)于Transformer,主要考慮語(yǔ)言模型和機(jī)器翻譯。
可以看到,在CIFAR-10和ImageNet上,AutoDropout都有效改善了SOTA模型的結(jié)果,并且優(yōu)于DropBlock等需要人工介入的方法。
而與使用Variational Dropout方法訓(xùn)練的Transformer-XL模型相比,AutoDropout同樣帶來(lái)了更好的表現(xiàn)。
不過(guò),研究人員也提到,AutoDropout的缺點(diǎn)是搜索成本很高。
有關(guān)作者
本文有兩位作者。
Hieu Pham,谷歌大腦和卡內(nèi)基梅隆大學(xué)共同培養(yǎng)的博士生,本科畢業(yè)于斯坦福大學(xué)。
另一位作者是Quoc V. Le大佬。他是吳恩達(dá)的學(xué)生,Google Brain的創(chuàng)立者之一,也是谷歌AutoML項(xiàng)目的幕后英雄之一。
傳送門
論文地址:
https://arxiv.org/abs/2101.01761
- 商湯林達(dá)華萬(wàn)字長(zhǎng)文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計(jì),讓70年經(jīng)驗(yàn)“活”起來(lái)2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08