誰說只有VGG才能做風格遷移,ResNet也可以!答案就在對抗攻擊中
圖像分類準確率高可能不是“好事”
邊策 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
風格遷移是VGG網(wǎng)絡架構(gòu)的拿手好戲。難道其他架構(gòu)的CNN,比如ResNet就不可以嗎?可以,但是直接用它來做風格遷移,原來的風格仍然非常明顯,幾乎沒有遷移。
就像這樣:
有沒有一種方法,在經(jīng)過調(diào)整后,可以把非VGG架構(gòu)用于風格遷移呢?
之前的確有人嘗試過。但他們不是直接優(yōu)化RGB空間中的輸出圖像,而是在傅立葉空間中對其進行優(yōu)化,并在將圖像傳遞到神經(jīng)網(wǎng)絡之前通過一系列變換(例如抖動、旋轉(zhuǎn)、縮放)來操作圖像。
△通過去相關(guān)參數(shù)化和變換魯棒性,在非VGG架構(gòu)上實現(xiàn)風格遷移
為何給圖像做一個簡單的旋轉(zhuǎn)、抖動處理,就能實現(xiàn)非VGG架構(gòu)的風格遷移?有位日本的科技博主Reiichiro Nakano受到MIT上個月發(fā)表的一篇論文啟發(fā),用實驗結(jié)果解答了這個問題。
這篇論文叫做《對抗樣本不是bug而是特征》(Adversarial Examples Are Not Bugs, They Are Features)。下面就讓我們來分析分析。
魯棒與非魯棒特征
MIT的文章提出,用于訓練分類器的圖像中存在所謂的“魯棒”和“非魯棒”特征。
我們可以將魯棒的特征視為人類用于分類的特征,例如,大耳朵指向某些品種的狗,而黑白條紋指向斑馬。
另一方面,非魯棒特征是人類對之不敏感的特征,但是它們卻與整個訓練、測試數(shù)據(jù)集上的類別相關(guān)聯(lián)。
作者認為,可以通過用另一個類的非魯棒特征替換圖像中的非魯棒特征來產(chǎn)生對抗樣本。
有些圖像分類模型的抵抗性較差,給熊貓照片加上一點噪聲(非魯棒特征),它就會把熊貓當成長臂猿:
論文中有一張圖表特別值得注意,它顯示了對抗樣本的可遷移性與學習非魯棒特征能力之間的相關(guān)性。
于是有人推測,由于VGG無法像ResNet那樣捕獲圖像的非魯棒特征,因此在圖像分類準確率上吃虧,卻能使VGG更好地進行風格遷移。
之前我們的問題得到了解釋:
圖像變換會削弱甚至破壞非魯棒特征。經(jīng)過優(yōu)化后,CNN不再能夠可靠地利用非魯棒特征來降低損失,因此不得不利用魯棒特征,可能會對圖像變化產(chǎn)生更大的抵抗力(旋轉(zhuǎn)和抖動的耳朵仍然看起來像一個大耳朵)。
實驗
測試這個假設是相當簡單的:使用一個抵抗力強大(魯棒)的分類器進行風格遷移,看看會發(fā)生什么。
博主對兩個不同條件訓練的ResNet-50模型進行比較。一個是MIT作者用魯棒特征訓練的模型(已開源),另一個是博主自己訓練的常規(guī)ResNet-50模型(對非魯棒特征敏感)。
此外,還有常規(guī)VGG-19風格轉(zhuǎn)換的圖片作為對比。
結(jié)果成功了!魯棒ResNet模型相比常規(guī)ResNet模型顯示出了巨大的改進。請記住,二者網(wǎng)絡架構(gòu)完全相同,執(zhí)行風格遷移的代碼完全相同,只是權(quán)重不同!
在VGG-19與魯棒的ResNet之間進行比較,會得到更有趣的結(jié)果。乍一看,魯棒ResNet模型生成的圖片大致與VGG-19相同。然而,仔細觀察卻發(fā)現(xiàn),ResNet的輸出包含更多的噪點,偽造的痕跡更明顯一些。
目前還不清楚究竟是什么原因?qū)е逻@些痕跡。一種理論是它們是由不可分的核尺寸和卷積層中的步長引起的“棋盤偽影”(checkerboard artifacts),也有可能是由最大池化層的存在造成的。
這些偽影雖然存在問題,但似乎與對抗魯棒性在神經(jīng)風格遷移中解決的問題大不相同。
結(jié)論
雖然這個實驗是因為觀察到VGG的一個特殊特征而開始的,但它沒有對這種現(xiàn)象作出解釋。實際上,如果我們要接受這樣的理論,即對抗魯棒性是VGG能直接用于神經(jīng)風格轉(zhuǎn)移的原因,我們肯定會在現(xiàn)有文獻中找到一些跡象表明VGG自然比其他架構(gòu)更強大。
不幸的是,我們找不到任何支持這個論點的東西。
也許對抗魯棒性恰好修復或掩蓋非VGG架構(gòu)在風格遷移中失敗的真正原因,即對抗魯棒性是有良好風格遷移能力的充分不必要條件。
這位日本博主認為進一步研究VGG是未來工作一個非常有趣的方向。
未來的工作
最后,博主給出了一些未來工作的想法:
1、找出魯棒ResNet偽造痕跡明顯的原因,并嘗試修復它們。
2、嘗試使用超參數(shù),尤其是用于風格和內(nèi)容的圖層。
3、本文使用的魯棒ResNet模型來自Engstrom等人的成果。他們是在一組受限制的ImageNet上訓練,只有9個分類。在完整的ImageNet數(shù)據(jù)集上訓練分類器是否會產(chǎn)生更好的輸出。
傳送門
博客地址:
https://reiinakano.com/2019/06/21/robust-neural-style-transfer.html
論文解讀地址:
http://gradientscience.org/adv/
魯棒ResNet-50模型:
https://github.com/MadryLab/robust_representations
Cloab地址:
https://colab.research.google.com/github/reiinakano/adversarially-robust-neural-style-transfer/blob/master/Robust_Neural_Style_Transfer.ipynb
- 腦機接口走向現(xiàn)實,11張PPT看懂中國腦機接口產(chǎn)業(yè)現(xiàn)狀|量子位智庫2021-08-10
- 張朝陽開課手推E=mc2,李永樂現(xiàn)場狂做筆記2022-03-11
- 阿里數(shù)學競賽可以報名了!獎金增加到400萬元,題目面向大眾公開征集2022-03-14
- 英偉達遭黑客最后通牒:今天必須開源GPU驅(qū)動,否則公布1TB機密數(shù)據(jù)2022-03-05