国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

何愷明劉壯新作：消除數(shù)據(jù)集偏差的十年之戰(zhàn)

魚羊 2024-03-15 17:08:33 來源：量子位

神經(jīng)網(wǎng)絡越來越強大，利用數(shù)據(jù)集偏差的能力也越來越厲害了

編輯部發(fā)自凹非寺

量子位 | 公眾號 QbitAI

MIT新晉副教授何愷明，新作新鮮出爐：

瞄準一個橫亙在AI發(fā)展之路上十年之久的問題：數(shù)據(jù)集偏差。

該研究為何愷明在Meta期間與劉壯合作完成，他們在論文中指出：

盡管過去十多年里業(yè)界為構建更大、更多樣化、更全面、偏差更小的數(shù)據(jù)集做了很多努力，但現(xiàn)代神經(jīng)網(wǎng)絡似乎越來越善于”識破”并利用這些數(shù)據(jù)集中潛藏的偏差。

這不禁讓人懷疑：我們在消除數(shù)據(jù)集偏差的戰(zhàn)斗中，真的取得了勝利嗎？

數(shù)據(jù)集偏差之戰(zhàn)，在2011年由知名學者Antonio Torralba和Alyosha Efros提出——

Alyosha Efros正是Sora兩位一作博士小哥（Tim Brooks和William Peebles）的博士導師，而Antonio Torralba也在本科期間指導過Peebles。

當時他們發(fā)現(xiàn)，機器學習模型很容易“過擬合”到特定的數(shù)據(jù)集上，導致在其他數(shù)據(jù)集上表現(xiàn)不佳。

十多年過去了，盡管我們有了更大、更多樣化的數(shù)據(jù)集，如ImageNet、YFCC100M、CC12M等，但這個問題似乎并沒有得到根本解決。

反而，隨著神經(jīng)網(wǎng)絡變得越來越強大，它們“挖掘”和利用數(shù)據(jù)集偏差的能力也越來越強了！

為了分析這個問題，何愷明團隊設計了一個虛構的”數(shù)據(jù)集分類”任務。

聽名字你可能就猜到了：給定一張圖像，模型需要判斷它來自哪個數(shù)據(jù)集。通過看模型在這個任務上的表現(xiàn)，就可以了解它們捕捉數(shù)據(jù)集偏差的能力。

現(xiàn)代AI輕松識破不同數(shù)據(jù)集

在實驗中團隊發(fā)現(xiàn)，各種現(xiàn)代神經(jīng)網(wǎng)絡架構，如AlexNet、VGG、ResNet、ViT等，在數(shù)據(jù)集分類任務上表現(xiàn)出驚人的一致性：它們幾乎都能以超過80%的準確率區(qū)分不同數(shù)據(jù)集的圖像！

更令人吃驚的是，這個發(fā)現(xiàn)在各種不同的條件下都非常穩(wěn)?。?/p>

不管是不同的數(shù)據(jù)集組合、不同的模型架構、不同的模型尺寸、不同的訓練數(shù)據(jù)量，還是不同的數(shù)據(jù)增強方法，神經(jīng)網(wǎng)絡始終能輕松”一眼識破”圖像的數(shù)據(jù)集來源。

那么，神經(jīng)網(wǎng)絡是如何做到這一點的呢？是靠單純的記憶，還是學到了一些更普適的規(guī)律？

為了揭開謎底，團隊做了一系列對比實驗。他們發(fā)現(xiàn)，如果把不同的數(shù)據(jù)集隨機混在一起，神經(jīng)網(wǎng)絡就很難再區(qū)分它們了（準確率下降到了33%）。這說明，神經(jīng)網(wǎng)絡并不是在單純地記憶每一張圖像，而是真的學到了一些數(shù)據(jù)集特有的模式。

更有趣的是，即使在自監(jiān)督學習的設置下，神經(jīng)網(wǎng)絡也展現(xiàn)出了驚人的”數(shù)據(jù)集辨識力”。在這種設置下，模型在訓練時并沒有用到任何數(shù)據(jù)集的標簽信息，但當在這些自監(jiān)督學習到的特征上訓練一個簡單的線性分類器時，它依然能以超過70%的準確率區(qū)分不同的數(shù)據(jù)集！

通過這一系列的實驗，何愷明、劉壯等人的研究給我們敲響了警鐘：盡管這十年我們一直在努力構建更大、更多樣化的數(shù)據(jù)集，但數(shù)據(jù)集偏差這個問題似乎并沒有得到根本解決。相反，現(xiàn)代神經(jīng)網(wǎng)絡越來越善于利用這些偏差來獲得高準確率，但這可能并不代表它們真正學到了魯棒、普適的視覺概念。

論文的最后，作者呼吁整個AI社區(qū)重新審視數(shù)據(jù)集偏差這個問題，并重新思考如何在算法和數(shù)據(jù)兩個層面上來應對這一挑戰(zhàn)。

CVPR最佳論文作者的通力合作

本文是何愷明在Meta期間，與Meta研究科學家劉壯合作完成。

現(xiàn)在，何愷明已經(jīng)正式在MIT上崗，擔任電氣工程與計算機科學系的助理教授。他的“開學第一課”開課即火爆，在youtube上已經(jīng)有2.9萬的播放量。

和何愷明一樣，劉壯本科畢業(yè)自清華，并且也是CVPR最佳論文獎得主——他是CVPR2017最佳論文DenseNet的第一作者。

2017年，劉壯從清華姚班畢業(yè)，進入加州大學伯克利分校攻讀博士學位，師從Trevor Darrell，是賈揚清的同門師弟。

博士畢業(yè)后，劉壯進入Meta AI Research工作。在此之前，他已經(jīng)在Meta實習了一年多時間，期間和謝賽寧合作，發(fā)表了ConvNeXt。

論文地址：
https://arxiv.org/abs/2403.08632

參考鏈接：
https://twitter.com/liuzhuang1234/status/1768096508082008289

— 完 —

何愷明劉壯數(shù)據(jù)集偏差

魚羊

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

何愷明劉壯新作：消除數(shù)據(jù)集偏差的十年之戰(zhàn)

現(xiàn)代AI輕松識破不同數(shù)據(jù)集

CVPR最佳論文作者的通力合作

相關閱讀

何愷明LeCun改造Transformer！9行代碼替代歸一化性能不減還加速

何愷明MAE局限性被打破，與Swin Transformer結合，訓練速度大大提升 | 東大&商湯&悉大

何愷明團隊新作：圖像分割精細度空前，邊緣自帶抗鋸齒，算力僅需Mask R-CNN的2.6%

何愷明團隊最新力作RegNet：超越EfficientNet，GPU上提速5倍，這是網(wǎng)絡設計新范式 | CVPR 2020

何愷明新作：給擴散模型加正則化，無需預訓練無需數(shù)據(jù)增強，超簡單實現(xiàn)性能提升

何愷明時隔2年再發(fā)一作論文：為視覺大模型開路，“CVPR 2022最佳論文候選預定”

熱門文章

標準化3D生成質量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應：下次不遙控了

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學AI了！和奔馳麥當勞一起拜師百度

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

何愷明劉壯新作：消除數(shù)據(jù)集偏差的十年之戰(zhàn)

現(xiàn)代AI輕松識破不同數(shù)據(jù)集

CVPR最佳論文作者的通力合作

相關閱讀

何愷明LeCun改造Transformer！9行代碼替代歸一化性能不減還加速

何愷明MAE局限性被打破，與Swin Transformer結合，訓練速度大大提升 | 東大&商湯&悉大

何愷明團隊新作：圖像分割精細度空前，邊緣自帶抗鋸齒，算力僅需Mask R-CNN的2.6%

何愷明團隊最新力作RegNet：超越EfficientNet，GPU上提速5倍，這是網(wǎng)絡設計新范式 | CVPR 2020

何愷明新作：給擴散模型加正則化，無需預訓練無需數(shù)據(jù)增強，超簡單實現(xiàn)性能提升

何愷明時隔2年再發(fā)一作論文：為視覺大模型開路，“CVPR 2022最佳論文候選預定”

熱門文章

標準化3D生成質量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應：下次不遙控了

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學AI了！和奔馳麥當勞一起拜師百度

何愷明LeCun改造Transformer！9行代碼替代歸一化性能不減還加速

何愷明團隊新作：圖像分割精細度空前，邊緣自帶抗鋸齒，算力僅需Mask R-CNN的2.6%

何愷明團隊最新力作RegNet：超越EfficientNet，GPU上提速5倍，這是網(wǎng)絡設計新范式 | CVPR 2020

何愷明新作：給擴散模型加正則化，無需預訓練無需數(shù)據(jù)增強，超簡單實現(xiàn)性能提升

何愷明時隔2年再發(fā)一作論文：為視覺大模型開路，“CVPR 2022最佳論文候選預定”

標準化3D生成質量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應：下次不遙控了

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學AI了！和奔馳麥當勞一起拜師百度