
但無論是機(jī)器學(xué)習(xí),還是數(shù)據(jù)挖掘,你一定聽說過很多很多,名字叼炸天的傳說中的“算法”,比如:SVM,神經(jīng)網(wǎng)絡(luò),Logistic回歸,決策樹、EM、HMM、貝葉斯網(wǎng)絡(luò)、隨機(jī)森林、LDA… ….其實(shí)還是很多很多!無論你排十大算法還是二十大算法,總感覺只觸及到了冰山一角!真是學(xué)海無涯啊- -!!
當(dāng)然,學(xué)習(xí)機(jī)器學(xué)習(xí)看書是必備的,總不能靠冥想吧。。。
有的書介紹機(jī)器學(xué)習(xí),會(huì)是這樣一種思路:就是單獨(dú)的一個(gè)一個(gè)的算法介紹,介紹個(gè)十幾個(gè),一本書的篇幅差不多也就完了。
李航博士的那本《統(tǒng)計(jì)學(xué)習(xí)方法》基本屬于這種套路。當(dāng)然,該書在國內(nèi)是備受推崇的一本??陀^上講,國人寫這方面的書很少,而李博士的著作也不像其他那種大學(xué)教材一樣?xùn)|拼西湊,可謂良心之作。但就本書的思路來說,我認(rèn)為:如果讀者就單獨(dú)的某一個(gè)算法想有所了解,參考該書應(yīng)該會(huì)有收獲。但系統(tǒng)化上還是優(yōu)化空間的,比如從一個(gè)算法到另外一個(gè)算法,之間的聯(lián)系是什么,推動(dòng)算法更新和升級(jí)的需求又在哪里?
另外一種該類型的書,會(huì)把算法按照它們的實(shí)現(xiàn)的功能和目的,分成比如 Regression、Classification、Clustering等等等等的幾類,然后各種講可以實(shí)現(xiàn)聚類的算法有A、B、C,可以實(shí)現(xiàn)回歸的有D、E、F。。。而且我們也知道,機(jī)器學(xué)習(xí)又可分為有監(jiān)督、無監(jiān)督以及半監(jiān)督的,或者又可分為貝葉斯派和概率派兩大陣營,所以按類別來介紹其中的算法也是一種很常見的思路。
這樣的書代表作是Pang-Ning Tan, Michael Steinbach 和Vipin Kumar的那本《數(shù)據(jù)挖掘?qū)д摗?/strong>,這樣的書基本上對(duì)于構(gòu)建一個(gè)大概的機(jī)器學(xué)習(xí)體系還是有裨益的。但是就初學(xué)者而言,其實(shí)這個(gè)體系還可以再優(yōu)化。這也是我根據(jù)個(gè)人的一些經(jīng)驗(yàn)想向各位介紹的一個(gè)基本的學(xué)習(xí)路線圖,在我看來知識(shí)應(yīng)該是有聯(lián)系的,而不是孤立的, 找到這種內(nèi)部隱藏的線索就如同獲得了阿里巴巴的口訣,才能開啟更大的寶藏。
當(dāng)然,正式學(xué)習(xí)之前,你所需要的預(yù)備知識(shí)(主要是數(shù)學(xué))應(yīng)該包括:微積分(偏導(dǎo)數(shù)、梯度等等)、概率論與數(shù)理統(tǒng)計(jì)(例如極大似然估計(jì)、中央極限定理、大數(shù)法則等等)、最優(yōu)化方法(比如梯度下降、牛頓-拉普什方法、變分法(歐拉-拉格朗日方程)、凸優(yōu)化等等)——如果你對(duì)其中的某些名詞感到陌生,那么就說明你尚不具備深入開展數(shù)據(jù)挖掘算法學(xué)習(xí)的能力。你會(huì)發(fā)現(xiàn)到處都是門檻,很難繼續(xù)進(jìn)行下去。
第一條線路:
(基于普通最小二乘法的)簡單線性回歸 -> 線性回歸中的新進(jìn)展(嶺回歸和LASSO回歸)->(此處可以插入Bagging和AdaBoost的內(nèi)容)-> Logistic回歸 ->支持向量機(jī)(SVM)->感知機(jī)學(xué)習(xí) -> 神經(jīng)網(wǎng)絡(luò)(初學(xué)者可先主要關(guān)注BP算法)-> 深度學(xué)習(xí)
之所以把它們歸為一條線路,因?yàn)樗羞@些算法都是圍繞著 y = Σxiβi,這樣一條簡單的公式展開的,如果你抓住這條線索,不斷探索下去,就算是抓住它們之間的繩索了。其中藍(lán)色部分主要是回歸,綠色部分主要是有監(jiān)督的分類學(xué)習(xí)法。
基于普通最小二乘的線性回歸是統(tǒng)計(jì)中一種有著非常悠久歷史的方法,它的使用甚至可以追溯到高斯的時(shí)代。但是它對(duì)數(shù)據(jù)有諸多要求,例如特征之間不能有多重共線性,而且?guī)X回歸和LASSO就是對(duì)這些問題的修正。
當(dāng)沿著第一條路線學(xué)完的時(shí)候,其實(shí)你已經(jīng)攻克機(jī)器學(xué)習(xí)的半壁江山了!當(dāng)然,在這個(gè)過程中,你一定時(shí)刻問問自己后一個(gè)算法與前一個(gè)的聯(lián)系在哪里?最初,人們從哪里出發(fā),才會(huì)如此設(shè)計(jì)出它們的。
第二條路線:
K-means -> EM -> 樸素貝葉斯 -> 貝葉斯網(wǎng)絡(luò) -> 隱馬爾科夫模型(基本模型,前向算法,維特比算法,前向-后向算法) (->卡爾曼濾波)
這條線路所涉及的基本都是那些各種畫來畫去的圖模型,一個(gè)學(xué)術(shù)名詞是 PGM 。這條線的思路和第一條是截然不同的!貝葉斯網(wǎng)絡(luò)、HMM(隱馬爾科夫模型),也就是綠色字體的部分是這個(gè)線路中的核心內(nèi)容。而藍(lán)色部分是為綠色內(nèi)容做準(zhǔn)備的部分。K-means 和 EM 具有與生俱來的聯(lián)系,認(rèn)識(shí)到這一點(diǎn)才能說明你真正讀懂了它們。而EM算法要在HMM的模型訓(xùn)練中用到,所以你要先學(xué)EM才能深入學(xué)習(xí)HMM。所以盡管在EM中看不到那種畫來畫去的圖模型,但我還把它放在了這條線路中,這也就是原因所在。樸素貝葉斯里面的很多內(nèi)容在,貝葉斯網(wǎng)絡(luò)和HMM里都會(huì)用到,類似貝葉斯定理,先驗(yàn)和后驗(yàn)概率,邊緣分布等等(主要是概念性的)。最后,卡爾曼濾波可以作為HMM的一直深入或者后續(xù)擴(kuò)展。盡管很多machine learning的書里沒把它看做是一種機(jī)器學(xué)習(xí)算法(或許那些作者認(rèn)為它應(yīng)該是信號(hào)處理中的內(nèi)容),但是它也確實(shí)可以被看成是一種機(jī)器學(xué)習(xí)技術(shù)。而且參考文獻(xiàn)[4]中,作者也深刻地揭示了它與HMM之間的緊密聯(lián)系,所以紅色的部分可以作為HMM的后續(xù)擴(kuò)展延伸內(nèi)容。
應(yīng)用層面,R、MATLAB和Python都是做數(shù)據(jù)挖掘的利器,另外一個(gè)基于Java的免費(fèi)數(shù)據(jù)挖掘工具是Weka,這個(gè)就只要點(diǎn)點(diǎn)鼠標(biāo),甚至不用編代碼了。給一個(gè)軟件界面的截圖如下

可以參閱的書籍:
中文版(含翻譯版)
1. 李航,統(tǒng)計(jì)學(xué)習(xí)方法
2. Pang-Ning Tan, Michael Steinbach , Vipin Kumar, 數(shù)據(jù)挖掘?qū)д?/p>
3. Peter Harrington 機(jī)器學(xué)習(xí)實(shí)踐
英文版
4. Stuart Russell, Peter Norvig, Artificial Intelligence : A Modern Approach(Third Edition)
5. Trevor Hastie, Robert Tibshirani,Jerome Friedman, The Elements of Statistical Learning:Data Mining, Inference, and Prediction
via:blog.csdn
End.
轉(zhuǎn)載請(qǐng)注明來自36大數(shù)據(jù)(36dsj.com):36大數(shù)據(jù) » 機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的學(xué)習(xí)路線圖
愛盈利-運(yùn)營小咖秀 始終堅(jiān)持研究分享移動(dòng)互聯(lián)網(wǎng)App數(shù)據(jù)運(yùn)營推廣經(jīng)驗(yàn)、策略、全案、渠道等純干貨知識(shí)內(nèi)容;是廣大App運(yùn)營從業(yè)者的知識(shí)啟蒙、成長指導(dǎo)、進(jìn)階學(xué)習(xí)的集聚平臺(tái);