CFA二級(jí)思維導(dǎo)圖分享:機(jī)器學(xué)習(xí)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
Reading7主要了解機(jī)器學(xué)習(xí)的一些常見概念,主要分類、了解常用算法的原理及其用途。
機(jī)器學(xué)習(xí)(Machine Learning)專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。從實(shí)踐的意義上來(lái)說(shuō),機(jī)器學(xué)習(xí)是一種通過(guò)利用數(shù)據(jù),訓(xùn)練出模型,然后使用模型預(yù)測(cè)的一種方法。
相比于傳統(tǒng)統(tǒng)計(jì)學(xué)方法(回歸分析)依賴于假設(shè)和先驗(yàn)性的限制性條件,機(jī)器學(xué)習(xí)可以沒(méi)有假設(shè)的情況下訓(xùn)練模型,機(jī)器學(xué)習(xí)的一個(gè)計(jì)算原理是“find the pattern, apply the pattern”。
根據(jù)數(shù)據(jù)類型的不同,機(jī)器學(xué)習(xí)通用的分類為:監(jiān)督學(xué)習(xí)(Supervised Learning)、非監(jiān)督學(xué)習(xí)(Unsuperviese Learning)、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)(Deep Learning & Reinforcement Learning)。
樣本分類
在機(jī)器學(xué)習(xí)中,訓(xùn)練模型的算法數(shù)據(jù)集包括:訓(xùn)練樣本(Trainning Sample),檢驗(yàn)樣本(validation sample)、驗(yàn)證樣本(TesTIng Sample)。訓(xùn)練樣本用于訓(xùn)練得出模型,檢驗(yàn)樣本用于修正模型,驗(yàn)證樣本用于檢驗(yàn)?zāi)P偷挠行浴?/p>
監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的主要區(qū)別在于訓(xùn)練樣本是否已經(jīng)標(biāo)定了結(jié)果,。打個(gè)簡(jiǎn)單的類比來(lái)說(shuō),監(jiān)督學(xué)習(xí)就是給你一堆習(xí)題,這些習(xí)題是有標(biāo)準(zhǔn)答案的,學(xué)習(xí)(算法)完之后給一張考卷,測(cè)驗(yàn)考試成績(jī)。而非監(jiān)督學(xué)習(xí),就是給你 一堆數(shù)據(jù),自己去發(fā)現(xiàn)規(guī)律,然后將規(guī)律應(yīng)用到新的數(shù)據(jù)中,類似于給一堆樂(lè)高積木,自己去發(fā)現(xiàn)規(guī)律, 考試就給另外一堆樂(lè)高積木,看能否應(yīng)用之前發(fā)現(xiàn)的規(guī)律。
監(jiān)督學(xué)習(xí)算法
監(jiān)督學(xué)習(xí)可應(yīng)用于回歸和分類問(wèn)題,回歸和分類的區(qū)別在于輸出的結(jié)果是連續(xù)變量還是分類變量。常見的回歸算法有懲罰性回歸算法,LASSO。常用的分類算法有支持向量機(jī)(Support vector machine (SVM))、近鄰算法(K-nearest neighbor (KNN) 、分類回歸樹(ClassificaTIon and Regression Tree (CART)),以及集成算法,集成算法為將多種不同的算法或模型集成到一起,將各個(gè)不同模型的結(jié)果放到一起,按模型結(jié)果的最大值作為整個(gè)算法的結(jié)果,如Bootstrap AggregaTIng (Bagging)、隨機(jī)森林(random forest)
非監(jiān)督學(xué)習(xí)算法
非監(jiān)督學(xué)習(xí)用于解決降維和聚類問(wèn)題,降維是一種減少特征數(shù)量的方法,選出對(duì)結(jié)果影響最大的特征。聚類問(wèn)題就是把含相似特征的數(shù)據(jù)放到一起。
降維主要的算法是主成分分析(PCA)算法,聚類問(wèn)題的算法包括k-means clustering、分層聚類hierarchical clustering、樹狀圖Dendrograms。
深度學(xué)習(xí)
第三類深度學(xué)習(xí),既可能是監(jiān)督學(xué)習(xí),也可能是非監(jiān)督學(xué)習(xí)。包括神經(jīng)網(wǎng)絡(luò)(Neural Networks,NN/ANN)、深度學(xué)習(xí)(deep learning nets ,DLNs)和強(qiáng)化學(xué)習(xí)(Reinforcement learning ,RL)
神經(jīng)網(wǎng)絡(luò)由輸入層(Input layer)、隱藏層(hidden layers)和輸出層(Output layer)構(gòu)成。深度學(xué)習(xí)是至少有3個(gè),一般超過(guò)20個(gè)的隱藏層。