不看全圖看局部,CNN性能竟然更強(qiáng)了
莫非CNN是個(gè)近視眼?
魚羊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
不給全圖,只投喂CNN一些看上去毫無(wú)信息量的圖像碎片,就能讓模型學(xué)會(huì)圖像分類。
更重要的是,性能完全不差,甚至還能反超用完整圖像訓(xùn)練的模型。
這么一項(xiàng)來(lái)自加州大學(xué)圣塔芭芭拉分校的新研究,這兩天引發(fā)不少討論。
咋地,這就是說(shuō),CNN根本無(wú)需理解圖像全局結(jié)構(gòu),一樣也能SOTA?
具體是怎么一回事,咱們還是直接上論文。
實(shí)驗(yàn)證據(jù)
研究人員設(shè)計(jì)了這樣一個(gè)實(shí)驗(yàn):
他們?cè)贑IFAR-10、CIFAR-100、STL-10、Tiny-ImageNet-200以及Imagenet-1K等數(shù)據(jù)集上訓(xùn)練ResNet。
特別的是,用于訓(xùn)練的圖像是通過(guò)隨機(jī)裁剪得到的。
這個(gè)“隨機(jī)裁剪”,可不是往常我們會(huì)在數(shù)據(jù)增強(qiáng)方法中見(jiàn)到的那一種,而是完全不做任何填充。
舉個(gè)例子,就是對(duì)圖片做PyTorch的RandomCrop變換時(shí),padding的參數(shù)填0。
得到的訓(xùn)練圖像就是下面這個(gè)樣式的。即使你是閱圖無(wú)數(shù)的老司機(jī),恐怕也分辨不出到底是個(gè)啥玩意兒。
訓(xùn)練圖像如此碎片化,模型的識(shí)圖能力又能達(dá)到幾成?
來(lái)看實(shí)驗(yàn)結(jié)果:
好家伙,在CIFAR-10上,用16×16的圖像碎片訓(xùn)練出來(lái)的模型,測(cè)試準(zhǔn)確率能達(dá)到91%,而用完整的32×32尺寸圖像訓(xùn)練出來(lái)的模型,測(cè)試準(zhǔn)確率也不過(guò)90%。
這一波,“殘缺版”CNN竟然完全不落下風(fēng),甚至還反超了“完整版”CNN。
要知道,被喂了碎片的CNN模型,看到的圖像甚至可能跟標(biāo)簽顯示的物體毫無(wú)關(guān)系,只是原圖中背景的部分……
在STL-10、Tiny-Imagenet-200等數(shù)據(jù)集上,研究人員也得到了類似的結(jié)果。
不過(guò),在CIFAR-100上,還是完整圖像訓(xùn)練出來(lái)的模型略勝一籌。16×16圖像碎片訓(xùn)練出的模型測(cè)試準(zhǔn)確率為61%,而32×32完整圖像訓(xùn)練出的模型準(zhǔn)確率為68%。
所以,CNN為何會(huì)有如此表現(xiàn)?莫非它本來(lái)就是個(gè)“近視眼”?
研究人員推測(cè),CNN能有如此優(yōu)秀的泛化表現(xiàn),是因?yàn)樵谶@個(gè)實(shí)驗(yàn)中,維度詛咒的影響被削弱了。
所謂維度詛咒(curse of dimensionality),是指當(dāng)維數(shù)提高時(shí),空間體積提高太快,導(dǎo)致可用數(shù)據(jù)變得稀疏。
而在這項(xiàng)研究中,由于CNN學(xué)習(xí)到的不是整個(gè)圖像的標(biāo)簽,而是圖像碎片的標(biāo)簽,這就在兩個(gè)方面降低了維度詛咒的影響:
- 圖像碎片的像素比完整圖像小得多,這減少了輸入維度
- 訓(xùn)練期間可用的樣本數(shù)量增加了
生成熱圖
基于以上實(shí)驗(yàn)觀察結(jié)果,研究人員還提出以熱圖的形式,來(lái)理解CNN的預(yù)測(cè)行為,由此進(jìn)一步對(duì)模型的錯(cuò)誤做出“診斷”。
就像這樣:
這些圖像來(lái)自于STL-10數(shù)據(jù)集。熱圖顯示,對(duì)于CNN而言,飛機(jī)圖像中最能“刺激”到模型的,不是飛機(jī)本身,而是天空。
同樣,在汽車圖像中,車輪才是CNN用來(lái)識(shí)別圖像的主要屬性。
研究團(tuán)隊(duì)
最后,介紹一下論文作者。
論文一作Vamshi Madala小哥,目前是加州大學(xué)圣塔芭芭拉分校的一年級(jí)博士生。主要研究興趣是深度學(xué)習(xí)理論框架,以及用計(jì)算機(jī)視覺(jué)來(lái)對(duì)理論研究進(jìn)行測(cè)試。
論文的另一位作者是小哥的導(dǎo)師Shivkumar Chandrasekaran,他是加州大學(xué)圣塔芭芭拉分校電氣與計(jì)算機(jī)工程教授,博士畢業(yè)于耶魯大學(xué)數(shù)值分析專業(yè)。
論文地址:
https://arxiv.org/abs/2205.10760
— 完 —
- 馬斯克收購(gòu)OpenAI新計(jì)劃實(shí)錘了:找小扎籌千億美元,果然敵人的敵人就是朋友…2025-08-23
- 標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來(lái)了!首創(chuàng)層次化評(píng)價(jià)體系,告別“誰(shuí)的demo更吸睛”主觀評(píng)估2025-08-16
- 阿里閃電入局Agent Infra!智能體新基建亮相WAIC,“超級(jí)大腦”開(kāi)箱即用2025-07-31
- 世紀(jì)華通謝斐:在“三大平衡”中領(lǐng)跑,實(shí)現(xiàn)游戲行業(yè)更高質(zhì)量的發(fā)展2025-08-01