銅靈 發(fā)自 凹非寺
量子位 出品 | 公眾號 QbitAI
紙上得來終覺淺,決勝NLP要躬行。
一套面向?qū)崙?zhàn)、號稱“代碼優(yōu)先”的NLP課程來了,名字為A Code-First Introduction to Natural Language Processing,fast.ai出品,全程免費學習。
不到半天點贊超過1600,轉(zhuǎn)發(fā)近500。
這套課程內(nèi)容包括主題建模、情緒分類,語言建模和翻譯等,是舊金山大學今年春天的最新碩士課程,此前已經(jīng)有300多名學生上過此課并畢業(yè)。
里面融合了此前經(jīng)典NLP課程的基礎內(nèi)容,比如正則表達、SVD、樸素貝葉斯,還加入了最近興起的神經(jīng)網(wǎng)絡中新方法,比如RNN、seq2seq、注意力機制和Transformer架構。
還加上了對道德問題、偏見問題和虛假信息可能帶來的影響。
既然偏向?qū)崙?zhàn),那代碼必須全。這套課程用的是PyTorch和fast.a庫所有的Python代碼都在Jupyter Notebook中,還有全套視頻與你為伴。
服用指南
直接看課程里面有什么干貨。
1、概覽
什么是NLP
2、傳統(tǒng)NLP方法
占整個課程三分之一的篇幅,介紹了使用SVD進行主題建模,通過樸素貝葉斯和邏輯回歸、以及正則表達式進行情感分類。
3、深度學習:NLP中的遷移學習
NLP中的遷移學習涉及到在大型語料庫上訓練語言模型,并且對不同的小語料庫進行微調(diào)等。
這項工作已經(jīng)被BERT、GPT-2和XLNet等模型采用,在這一節(jié)中,主要分享了構建英語以外其他語言模型的技巧,包括用ULMFit建立越南語和土耳其語語言模型的技巧。
4、深度學習:Seq2Seq翻譯和Transformer架構
這一節(jié)研究了簡單RNN如何工作的細節(jié),還介紹了用于翻譯的Seq2Seq模型。
從建立翻譯模型,到teacher forcing方法、注意力機制以及GRU等方法提高準確率。
最后介紹了Transformer架構的實現(xiàn)。
5、NLP的倫理問題
倫理問題及潛在的風險是作者重點推薦的一節(jié)。
在OpenAI的GPT-2語言模型問世后,翻譯、閱讀理解、回答問題等任務都能做到以假亂真,讓不少群眾開始慌張。
這一節(jié)給出了解決方法和建議步驟,如驗證系統(tǒng)和數(shù)字簽名等。
每節(jié)課都有視頻,每個視頻長度在20-90分鐘之間。
側(cè)重實踐
這門課背后的fast.ai,在深度學習界算是獨樹一幟。
fast.ai由Kaggle大神Jeremy Howard、后悔讀了博的數(shù)學博士Rachel Thomas、原本在巴黎教了7年書的Sylvain Gugger聯(lián)合創(chuàng)辦。
他們是真正的實踐派,課程以“教實用的東西、高效解決問題”為核心追求,非常重視工程實現(xiàn)細節(jié)。
在去年發(fā)布更基礎的“程序員的機器學習入門”課時,他們贊揚了吳恩達老師的入門課worderful之后就接了個“但是”:但是,它現(xiàn)在有顯得太老氣了,特別是作業(yè)還得拿Matlab寫。
fast.ai的課程就非常緊跟程序員的實踐潮流,用Python編程,用交互式的Jupyter Notebooks學習。
同時,他們也非常鼓勵學生去參加Kaggle競賽,檢驗自己的能力。
這套NLP新課,也是同樣的思路了。
傳送門
課程首頁:
https://www.fast.ai/2019/07/08/fastai-nlp/
GitHub上有課程所需的所有代碼:
https://github.com/fastai/course-nlp
油管上所有課的視頻(需要科學前往):
https://www.youtube.com/playlist?list=PLtmWHNX-gukKocXQOkQjuVxglSDYWsSh9
Fast.ai庫:
https://docs.fast.ai/
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節(jié),請在量子位公眾號(QbitAI)對話界面,回復“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
?’?’ ? 追蹤AI技術和產(chǎn)品新動態(tài)