機器學習必讀TOP 100論文清單:高引用、分類全、覆蓋面廣丨GitHub 21.4k星
Hinton、Bengio、何愷明等大牛最經典的論文
蕭簫 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
想要入門機器學習,奈何領域的新論文太多,不知道該看哪一篇?
自2017年以來,超越SOTA的方法天天有,但往往針對性非常強,不一定是顛覆機器學習圈的重要成果。
又回到了熟悉的話題:要想入行,還得看高引用經典論文。
這里整合了2012年到2016年的高引TOP 100論文,引用量要求隨著年份遞減而遞增,Hinton、Bengio、何愷明等大牛的論文都在其中,一起來看看吧:
清單列表
理解、泛化、遷移學習
1、Distilling the knowledge in a neural network (2015), G. Hinton et al.
http://arxiv.org/pdf/1503.02531
這篇介紹了Hinton大神在15年做的一個黑科技技術,Hinton在一些報告中稱之為Dark Knowledge,技術上一般叫做知識蒸餾(Knowledge Distillation)。這篇論文的核心思想是通過遷移知識,從而以訓練好的大模型得到更加適合推理的小模型。
2、Deep neural networks are easily fooled: High confidence predictions for unrecognizable images (2015), A. Nguyen et al.
http://arxiv.org/pdf/1412.1897
研究結果揭示了人的視覺和目前DNNs的差異。具體來說,卷積神經網絡在ImageNet或MNIST數據集上訓練都表現良好,但發(fā)現通過進化算法或梯度上升處理的圖片,DNNs以很高的置信度貼以標簽屬于某個數據集類(其實不屬于這個數據集類)。
3、How transferable are features in deep neural networks? (2014), J. Yosinski et al.
http://papers.nips.cc/paper/5347-how-transferable-are-features-in-deep-neural-networks.pdf
本文通過實驗,量化了深度神經網絡每層神經元的通用性與特殊性,并對結果進行了展示。網絡第一層的特征并非特定于某一數據集或者某一任務,而是通用的特征,它們適用于許多數據集和普遍的任務。在較深的模型層,特征會從通用的特征逐漸轉換為更專業(yè)的特征(和任務、數據集緊密相關的特征)。
4、CNN features off-the-Shelf: An astounding baseline for recognition (2014), A. Razavian et al.
http://www.cv-foundation.org//openaccess/content_cvpr_workshops_2014/W15/papers/Razavian_CNN_Features_Off-the-Shelf_2014_CVPR_paper.pdf
本文考慮了一種問題,假設有一個現成的,針對某個具體問題A訓練好的CNN,僅僅使用它的前幾層來提取圖像信息,再配合使用一些經典分類器(SVM等),是否可以在其他的問題B,C上也得到比較好的結果?
5、Learning and transferring mid-Level image representations using convolutional neural networks (2014), M. Oquab et al.
https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Oquab_Learning_and_Transferring_2014_CVPR_paper.pdf
CNN的學習需要建立數以百萬計的參數,并且需要大量已經標注好的圖像。這種特性目前阻止了CNN在有限訓練集問題上的應用。本文展示了在大規(guī)模標記的數據上、用CNN學習出的圖像表示,是如何有效地被遷移到其他視覺識別的任務中的。
6、Visualizing and understanding convolutional networks (2014), M. Zeiler and R. Fergus
http://arxiv.org/pdf/1311.2901
這篇論文的目的,就是通過特征可視化,查看精度變化,從而知道CNN學習到的特征如何。這篇論文闡述了CNN的每一層到底學習到了什么特征,然后作者通過可視化進行調整網絡。
7、Decaf: A deep convolutional activation feature for generic visual recognition (2014), J. Donahue et al.
http://arxiv.org/pdf/1310.1531
這篇論文驗證了卷積特征在各種場合上的效果,算是transfer learning和一些驗證的論文。而且,DeCAF可以算是著名的框架Caffe的前身。
優(yōu)化、技巧方法
8、Training very deep networks (2015), R. Srivastava et al.
http://papers.nips.cc/paper/5850-training-very-deep-networks.pdf
作者提出了一種全新的高速網絡結構 (Highway Networks),用于優(yōu)化深度神經網絡由于梯度爆炸和梯度消失而導致的訓練困難的問題。而且,ResNet 的思路和這篇文章所提出的想法有很多相似之處。(小tips,這篇論文發(fā)表于 2015 年 05 月份,ResNet 發(fā)表于 2015 年 12 月份)
9、Batch normalization: Accelerating deep network training by reducing internal covariate shift (2015), S. Loffe and C. Szegedy
http://arxiv.org/pdf/1502.03167
這篇文章引入了BN層,并介紹了引入原因。引入 BN 后,我們可以不用太在意參數的初始化,同時使用更大的學習率,而且也會有正則化的效果,在一些情況下可以不用再使用 Dropout。
10、Delving deep into rectifiers: Surpassing human-level performance on imagenet classification (2015), K. He et al.
http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/He_Delving_Deep_into_ICCV_2015_paper.pdf
這篇論文是來自MSRA的何愷明的論文,論文首次公開宣布圖像的識別率超越人類水平。
11、Dropout: A simple way to prevent neural networks from overfitting (2014), N. Srivastava et al.
http://jmlr.org/papers/volume15/srivastava14a/srivastava14a.pdf
大牛集結的論文,Hinton、Bengio都有參與。這篇文章對dropout進行了研究,結果表明,在視覺、語音識別、文檔分類和計算生物學等方面,dropout都能提高神經網絡在有監(jiān)督學習任務中的性能,在許多基準數據集上都獲得了最新的結果。
12、Adam: A method for stochastic optimization (2014), D. Kingma and J. Ba
http://arxiv.org/pdf/1412.6980
本文展示了如何將優(yōu)化算法的設計轉換為一個學習問題,使算法能夠自動地在感興趣的問題中利用結構。文中的學習算法由LSTMs實現。
13、Improving neural networks by preventing co-adaptation of feature detectors (2012), G. Hinton et al.
http://arxiv.org/pdf/1207.0580.pdf
Hinton的論文,文章對過擬合問題進行了研究。訓練網絡時,隨機忽略一半的feature detectors能夠防止因訓練集太小帶來的過擬合問題。這能夠防止一些detectors聯合在一起才起作用的情況,每個神經元預測一個特征有利于提高準確率,這種dropout的方法能提高很多benchmark的成績。
14、Random search for hyper-parameter optimization (2012) J. Bergstra and Y. Bengio
http://www.jmlr.org/papers/volume13/bergstra12a/bergstra12a
Bengio的論文,關于超參數優(yōu)化的方法。論文指出,Random Search比Gird Search更有效。實際操作的時候,一般也是先用Gird Search的方法,得到所有候選參數,然后每次從中隨機選擇進行訓練。
無監(jiān)督學習、生成模型
15、Pixel recurrent neural networks (2016), A. Oord et al.
http://arxiv.org/pdf/1601.06759v2.pdf
本文提出了一個深度神經網絡,它根據順序沿著兩個空間維度來預測圖片中的像素。這種模型離散了原始像素值的可能性,同時編碼保證了整個圖片的完整性。對自然圖片的分布進行建模一直以來都是無監(jiān)督學習中的里程碑式的難題。這要求圖片模型易表達、易處理、可拓展。
16、Improved techniques for training GANs (2016), T. Salimans et al.
http://papers.nips.cc/paper/6125-improved-techniques-for-training-gans.pdf
本文提出了可以用到GAN上的一些新的結構特征和訓練過程。本文主要應用于半監(jiān)督學習和生成視覺上真實的圖像兩個方向。使用這種方法,可以在MNIST,CIFAR10,SVHN上達到很好的半監(jiān)督效果。
17、Unsupervised representation learning with deep convolutional generative adversarial networks (2015), A. Radford et al.
https://arxiv.org/pdf/1511.06434v2
這篇論文旨在幫助縮小監(jiān)督學習和非監(jiān)督學習成功運用于CNN上的差距。論文介紹了CNN的一個類,稱為深度卷積生成對抗網絡(DCGANs),這個網絡有著明確的結構約束,并且表明他們對非監(jiān)督學習有著強烈的可信度。
18、DRAW: A recurrent neural network for image generation (2015), K. Gregor et al.
http://arxiv.org/pdf/1502.04623
本文介紹了深度遞歸書寫器(DRAW)神經網絡用于圖像生成。DRAW網絡是一種模仿人眼空間注意力機制的、帶有視覺偏好性的可變自動編碼框架,其主要功能是用于復雜圖像的迭代構造。
19、Generative adversarial nets (2014), I. Goodfellow et al.
http://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf
GANs來了。論文提出了一個通過對抗過程估計生成模型的新框架,在新框架中同時訓練兩個模型:一個用來捕獲數據分布的生成模型G,和一個用來估計樣本來自訓練數據而不是G的概率的判別模型D,G的訓練過程是最大化D產生錯誤的概率。在訓練或生成樣本期間不需要任何馬爾科夫鏈或展開的近似推理網絡。
20、Auto-encoding variational Bayes (2013), D. Kingma and M. Welling
http://arxiv.org/pdf/1312.6114
AEV與GAN是現在生成網絡中的兩個趨勢。文中引入了隨機變分推理和學習算法,擴展到大數據集,并且可以在一些溫和的差異性條件下、甚至某些棘手的情況下工作。論文表明,變分下界的重新參數化產生了可以使用標準隨機梯度法直接優(yōu)化的下限估計器。
21、Building high-level features using large scale unsupervised learning (2013), Q. Le et al.
http://arxiv.org/pdf/1112.6209
GoogleBrain中特征學習的原理,通過使用未標記的圖像學習人臉、貓臉high-level特征,得到檢測器。文章使用大數據構建了一個9層的局部連接稀疏自編碼網絡,使用模型并行化和異步SGD在1000個機器(16000核)上訓練了3天,結果顯示,可以在未標記圖像是否有人臉的情況下訓練出一個人臉檢測器。
由于文章比較多,此處只介紹前20篇論文,除此之外,還有卷積神經網絡模型、目標檢測、視頻圖像處理、NLP算法、RNN模型、強化學習和機器人領域等近年來最經典的論文。
對機器學習感興趣的朋友們,可以點擊下方鏈接,選擇自己感興趣的領域進行學習。
傳送門
機器學習TOP 100論文:
https://github.com/terryum/awesome-deep-learning-papers#understanding–generalization–transfer
- 首個GPT-4驅動的人形機器人!無需編程+零樣本學習,還可根據口頭反饋調整行為2023-12-13
- IDC霍錦潔:AI PC將顛覆性變革PC產業(yè)2023-12-08
- AI視覺字謎爆火!夢露轉180°秒變愛因斯坦,英偉達高級AI科學家:近期最酷的擴散模型2023-12-03
- 蘋果大模型最大動作:開源M芯專用ML框架,能跑70億大模型2023-12-07