95后數(shù)據(jù)科學(xué)家教你從零自學(xué)機(jī)器學(xué)習(xí),這有3本入門(mén)必看書(shū)籍
曉查 發(fā)自 凹非寺
量子位 編譯 | 公眾號(hào) QbitAI
厭倦了現(xiàn)在的工作,想轉(zhuǎn)行做數(shù)據(jù)科學(xué),但是卻沒(méi)有計(jì)算機(jī)專業(yè)的相關(guān)學(xué)歷,應(yīng)該怎樣才能入門(mén)?
這類的教程已經(jīng)有很多。最近一位22歲的數(shù)據(jù)科學(xué)家Dario,以自學(xué)經(jīng)歷中用到的資源告訴你,如何從零開(kāi)始學(xué)習(xí)數(shù)據(jù)科學(xué)。
所謂從零開(kāi)始自學(xué),是針對(duì)那些可以自主學(xué)習(xí)在線課程和閱讀書(shū)籍,卻沒(méi)有上班之余接受課堂教育的人士。
在學(xué)習(xí)之前,如果你對(duì)線性代數(shù)、微積分、概率論與統(tǒng)計(jì)學(xué)、程序設(shè)計(jì)都不太熟悉,Dario建議先去學(xué)習(xí)一下這幾門(mén)數(shù)學(xué)課程,然后再學(xué)習(xí)Python。
在學(xué)完以上內(nèi)容后可以進(jìn)入下面的學(xué)習(xí)。
看書(shū)還是看視頻
如果想進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域,每天一兩個(gè)小時(shí)的學(xué)習(xí)是必不可少的,是看書(shū)還是選擇看視頻?
很多人都不想在每天工作8小時(shí)后還看書(shū),因此視頻教程是個(gè)不錯(cuò)的選擇,而且可以在通勤路上觀看。
Dario首先推薦的是Udemy的《數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)Python訓(xùn)練營(yíng)》,這是他第一次接觸數(shù)據(jù)科學(xué)的時(shí)候?qū)W習(xí)的課程。
課程中用Pandas和Numpy進(jìn)行數(shù)據(jù)分析,并用Matplotlib和Seaborn進(jìn)行一些數(shù)據(jù)可視化。雖然內(nèi)容不多也不深入,但已經(jīng)足夠入門(mén)數(shù)據(jù)科學(xué)了。
Dario還推薦了Coursera上由吳恩達(dá)主講的《機(jī)器學(xué)習(xí)》課程,學(xué)習(xí)時(shí)長(zhǎng)大概十多個(gè)星期。課程以英文講述,但是提供中文字幕。
這門(mén)課程的質(zhì)量絕對(duì)有保障,大約12萬(wàn)名用戶平均評(píng)分為4.9(滿分5),人氣也超高,共有260多萬(wàn)用戶注冊(cè)。
三本優(yōu)秀的入門(mén)必看書(shū)
如果你更喜歡讀書(shū),Dario還推薦了3本入門(mén)數(shù)據(jù)科學(xué)的優(yōu)秀教材。
第一本是《Python數(shù)據(jù)科學(xué)手冊(cè)》。這本書(shū)從Jupyter Notebook入手,內(nèi)容涵蓋了Numpy、Pandas,、Matplotlib和Scikit-Learn等數(shù)據(jù)科學(xué)中最重要的部分。
該書(shū)的中文版去年已經(jīng)出版,網(wǎng)上評(píng)分9.3,網(wǎng)友都說(shuō)這是本優(yōu)秀的入門(mén)級(jí)教材,非常適合非計(jì)算機(jī)專業(yè)的學(xué)生。
第二本是《統(tǒng)計(jì)學(xué)習(xí)導(dǎo)論》,它的內(nèi)容會(huì)有點(diǎn)數(shù)學(xué),但是也很容易閱讀。
對(duì)于機(jī)器學(xué)習(xí)這樣一個(gè)廣泛的領(lǐng)域,這本書(shū)能將篇幅控制在400頁(yè)左右很不容易。唯一的缺點(diǎn)是代碼是用 R語(yǔ)言而不是Python編寫(xiě)的。
這本書(shū)的英文版提供免費(fèi)下載(地址見(jiàn)文末),評(píng)分為9.5分,中文版8.3分。
第三本是《Scikit-Learn與TensorFlow機(jī)器學(xué)習(xí)實(shí)用指南》,這本書(shū)能幫助你深入了解機(jī)器學(xué)習(xí)的概念和算法。目前,該書(shū)的英文影印版和中文版都已經(jīng)出版。
下一步
學(xué)完所有課程后,Dario建議初學(xué)者建立一個(gè)GitHub存檔,并尋找5個(gè)數(shù)據(jù)集來(lái)練手,在這個(gè)過(guò)程中寫(xiě)出自己的結(jié)論和思考過(guò)程。
對(duì)于你未來(lái)要投遞的公司來(lái)說(shuō),讓他們看到你的工作很重要。因?yàn)槟銢](méi)有相關(guān)學(xué)位,因此需要以某種方式展示自己在數(shù)據(jù)科學(xué)中的工作,而GitHub是一個(gè)不錯(cuò)的選擇。
傳送門(mén)
原文連接:
https://towardsdatascience.com/becoming-a-self-taught-data-scientist-5563f546bb7b
數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)Python訓(xùn)練營(yíng):
https://www.udemy.com/course/python-for-data-science-and-machine-learning-bootcamp/
吳恩達(dá)《機(jī)器學(xué)習(xí)》課程:
https://www.coursera.org/learn/machine-learning
《An Introduction to Statistical Learning》下載地址:
http://faculty.marshall.usc.edu/gareth-james/ISL/
- 腦機(jī)接口走向現(xiàn)實(shí),11張PPT看懂中國(guó)腦機(jī)接口產(chǎn)業(yè)現(xiàn)狀|量子位智庫(kù)2021-08-10
- 張朝陽(yáng)開(kāi)課手推E=mc2,李永樂(lè)現(xiàn)場(chǎng)狂做筆記2022-03-11
- 阿里數(shù)學(xué)競(jìng)賽可以報(bào)名了!獎(jiǎng)金增加到400萬(wàn)元,題目面向大眾公開(kāi)征集2022-03-14
- 英偉達(dá)遭黑客最后通牒:今天必須開(kāi)源GPU驅(qū)動(dòng),否則公布1TB機(jī)密數(shù)據(jù)2022-03-05