子豪 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
量化,作為神經(jīng)網(wǎng)絡壓縮和加速的重要手段,往往要依賴真實數(shù)據(jù)進行校準。
此前,一些無數(shù)據(jù)量化方法雖然解決了數(shù)據(jù)依賴問題,但是卻存在數(shù)據(jù)分布和樣本同質(zhì)化問題,致使量化模型的精度下降。
現(xiàn)在,為解決這一問題,來自北航、耶魯大學、商湯研究院的研究團隊,共同開發(fā)了多樣化的樣本生成(DSG)方法。
這一研究成果,不僅解決了數(shù)據(jù)依賴問題,還能有效避免同質(zhì)化、增強數(shù)據(jù)的多樣性,甚至獲得與真實數(shù)據(jù)媲美的效果。

△多樣化樣本生成(DSG)方法
這篇論文已經(jīng)入選CVPR 2021 Oral。
不妨來了解一下這項研究。
松弛對齊分布(SDA):解決分布同質(zhì)化問題
由于合成數(shù)據(jù)是去匹配批歸一化(BN)統(tǒng)計量參數(shù),因此,每層的特征分布容易過擬合,產(chǎn)生在數(shù)據(jù)分布上的同質(zhì)化現(xiàn)象,無法獲得真實數(shù)據(jù)那樣多樣化的分布。

△生成數(shù)據(jù)的分布同質(zhì)化問題
為解決這一問題,研究團隊提出了一種松弛對齊批歸一化的數(shù)據(jù)分布的方法(SDA),為均值和標準差引入松弛量(δi)和(γi),就是通過在原始的批歸一化統(tǒng)計量損失函數(shù)中,添加松弛常數(shù),允許合成數(shù)據(jù)與批歸一化層的統(tǒng)計量之間存在差距,松弛對BN層參數(shù)的約束。
第 i 個批歸一化層的損失項變?yōu)槿缦滦问剑?img class="syl-page-img alignnone" src="https://p6-tt.byteimg.com/origin/pgc-image/58ecced8fed24202b40c820bf41fc2f1?from=pc" alt="CVPR Oral:我給大家表演一個無中生有|北航商湯耶魯" width="221" height="49" />
在特定范圍內(nèi),合成數(shù)據(jù)的統(tǒng)計量會在寬松的約束下波動。其特征分布變得更加多樣化,從而解決分布同質(zhì)化問題。
一個重大挑戰(zhàn)是不使用真實數(shù)據(jù),如何確定松弛量?
可以將真實數(shù)據(jù)的特征統(tǒng)計量與批歸一化統(tǒng)計量參數(shù)的差距作為參考,根據(jù)中心極限定理,可以使用高斯假設作為一個通用的近似值,即從高斯分布中隨機采樣的合成數(shù)據(jù),來確定松弛量。
首先,從μ=0,σ=1的高斯分布中采樣1024個合成樣本,將采樣的合成樣本輸入模型,保存均值和標準差;用相應的批歸一化層的參數(shù)與之做減法。
分別表示的兩個絕對值的?百分位點,?這個在0與1之間的數(shù)決定了松弛量的取值,即決定了合成數(shù)據(jù)統(tǒng)計量對齊批歸一化統(tǒng)計量參數(shù)的松弛程度,當該值較大時,對合成數(shù)據(jù)的約束更加松散。
層級樣本增強(LSE):解決樣本同質(zhì)化問題
在一些無數(shù)據(jù)量化方法中,合成數(shù)據(jù)的所有樣本都是通過同樣的目標函數(shù)被優(yōu)化的,也就是直接將網(wǎng)絡每層的損失累加來優(yōu)化所有樣本。
這就導致了樣本的特征分布統(tǒng)計量趨于中心化,出現(xiàn)樣本層面上的同質(zhì)化現(xiàn)象,而真實數(shù)據(jù)往往是分散的。

△樣本層面的同質(zhì)化問題
為解決這一問題,研究團隊提出了一種層級樣本增強的方法(LSE)。
對一個batch中每個合成圖像的損失函數(shù),進行分別設計,從而增強每個樣本對于特定層的損失。
具體地說,對于具有N個批歸一化層的網(wǎng)絡,可以提供N個不同的損失項,并將它們中的每一個應用于特定數(shù)據(jù)樣本。
假設每次生成N個圖像,即批大小設置為N,和模型中的批歸一化層的個數(shù)相同。
定義一個增強矩陣:XLSE=(I+11T),
其中I是一個N維單位矩陣,1是N維全1列向量,L是包含每層損失項的向量。那么該批次的損失函數(shù)定義為:L=1T(XLSE·L)/N
其中XLSEL是N維列向量,其第i個元素表示該批次中第i個圖像的損失函數(shù)。因此,該批次的每個樣本都被施加唯一的損失項,對特定層的損失項進行了增強。
對于具有N個批歸一化層的網(wǎng)絡,這一方法可以同時批量生成各種樣本,每種樣本在特定層上進行增強。
采用SDA方法獲得的包含每層損失項的向量,將L替換為LSDA,從而將SDA方法與LSE方法結(jié)合。
通過上述兩種方法,解決了生成樣本的同質(zhì)化問題,并且增強了多樣性。

△真實樣本和生成樣本的激活值統(tǒng)計量分布
實驗情況
為了驗證該多樣化樣本生成方法在不同網(wǎng)絡架構(gòu),數(shù)據(jù)集和不同量化位寬上的效果,研究團隊在ImageNet數(shù)據(jù)集,使用各種模型與離線量化方案進行了實驗。
結(jié)果表明,在ResNet-18和ResNet-50上,DSG在各種比特設置下優(yōu)于ZeroQ,尤其是在較低比特下。在某些設置下,甚至取得了超過真實數(shù)據(jù)的結(jié)果。

△在ResNet-18(a)和ResNet-50(b)上的對比實驗
采用各種離線校準方法時,DSG相比ZeroQ有一致的性能提升。

△ResNet-18上采用不同離線校準方法的實驗
為了進一步驗證DSG的有效性,研究團隊還測試了使用最先進的離線量化方法(AdaRound)時的性能。實驗中也使用了Label以及Image Prior方法。
結(jié)果表明,DSG依然帶來了性能上的提升。

△在ResNet-18上使用AdaRound的實驗
事實表明,DSG在各種網(wǎng)絡訓練架構(gòu)和各種離線量化方法中表現(xiàn)出色,尤其在超低位寬條件下,效果大大優(yōu)于現(xiàn)有技術(shù)。
研究團隊介紹
北航劉祥龍教授團隊近年來圍繞模型低比特量化、二值量化、量化訓練等方向做出了一系列具有創(chuàng)新性和實用性的研究成果。包括:國際首個二值化點云模型BiPointNet、可微分軟量化DSQ、量化訓練、信息保留二值網(wǎng)絡IR-Net等,研究論文發(fā)表在ICLR、CVPR、ICCV等國際頂級會議和期刊上。
商湯研究院-Spring工具鏈團隊致力于通過System+AI技術(shù)打造頂尖的深度學習核心引擎。開發(fā)的模型訓練和模型部署工具鏈已服務于公司多個核心業(yè)務。團隊在量化模型的在線/離線生產(chǎn)、部署對齊、標準工具等方向有著明確的技術(shù)規(guī)劃。
論文共同第一作者張祥國,北京航空航天大學二年級碩士生,主要研究方向為模型量化壓縮與加速、硬件友好的深度學習,曾作為第一作者發(fā)表計算機視覺頂級會議(CVPR)一篇。
論文共同第一作者秦浩桐,北京航空航天大學博士二年級,主要研究方向為模型量化壓縮與加速、硬件友好的深度學習。曾作為第一作者發(fā)表頂級會議、期刊(ICLR,CVPR,PR)共4篇。
傳送門
論文地址:
https://arxiv.org/abs/2103.01049
劉祥龍教授團隊主頁:
http://sites.nlsde.buaa.edu.cn/~xlliu/