帶你了解一下人工智能中的決策樹(shù)(DT)
在生活或工作中,人們經(jīng)常面臨各種各樣的選擇,很迷茫和困惑,正確的決策非常重要。同樣,人工智能研究中也會(huì)遇到?jīng)Q策問(wèn)題,今天就跟大家聊聊人工智能之決策樹(shù)。
決策樹(shù)(DecisionTree)是一類常見(jiàn)的機(jī)器學(xué)習(xí)方法。決策樹(shù)(DT)在人工智能中所處的位置:
人工智能->機(jī)器學(xué)習(xí)->監(jiān)督學(xué)習(xí)->決策樹(shù)。
在機(jī)器學(xué)習(xí)中,決策樹(shù)(DT)是一個(gè)預(yù)測(cè)(決策)模型,它所代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。決策樹(shù)算法根據(jù)數(shù)據(jù)的屬性采用樹(shù)狀結(jié)構(gòu)建立決策模型。
什么是決策樹(shù)?
決策樹(shù)(DT)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過(guò)構(gòu)成決策樹(shù)來(lái)求取凈現(xiàn)值的期望值大于等于零的概率,評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法。由于這種決策分支畫(huà)成圖形很像一棵樹(shù)的枝干,故稱決策樹(shù)。從數(shù)據(jù)產(chǎn)生決策樹(shù)的機(jī)器學(xué)習(xí)技術(shù)叫做決策樹(shù)學(xué)習(xí)。
通過(guò)定義我們知道,決策樹(shù)(DT)是一種樹(shù)形結(jié)構(gòu),樹(shù)中每個(gè)節(jié)點(diǎn)表示某個(gè)對(duì)象,而每個(gè)分叉路徑則代表的某個(gè)可能的屬性值,而每個(gè)葉結(jié)點(diǎn)則對(duì)應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對(duì)象的值。結(jié)點(diǎn)有兩種類型:內(nèi)部節(jié)點(diǎn)和葉節(jié)點(diǎn),內(nèi)部節(jié)點(diǎn)表示一個(gè)特征、屬性或一個(gè)屬性上的測(cè)試,每個(gè)分支代表一個(gè)測(cè)試輸出,葉節(jié)點(diǎn)表示一個(gè)類別。決策樹(shù)(DT)一般都是自上而下的來(lái)生成的。每個(gè)決策或事件(即自然狀態(tài))都可能引出兩個(gè)或多個(gè)事件,導(dǎo)致不同的結(jié)果。
決策樹(shù)(DT)是一種十分常見(jiàn)的分類方法,也稱分類樹(shù)。它是一種監(jiān)督學(xué)習(xí),即給定一堆樣本,每個(gè)樣本都有一組屬性和一個(gè)類別,這些類別是事先確定的,那么通過(guò)學(xué)習(xí)得到一個(gè)分類器,這個(gè)分類器能夠?qū)π鲁霈F(xiàn)的對(duì)象給出正確的分類。因此,決策樹(shù)常常用來(lái)解決分類和回歸問(wèn)題。
決策樹(shù)構(gòu)成要素:
1)決策結(jié)點(diǎn):用方塊結(jié)點(diǎn)□表示,是對(duì)幾種可能方案的選擇,即最后選擇的最佳方案。如果決策屬于多級(jí)決策,則決策樹(shù)的中間可以有多個(gè)決策點(diǎn),以決策樹(shù)根部的決策點(diǎn)為最終決策方案。
2)方案枝:由結(jié)點(diǎn)引出若干條細(xì)支,每條細(xì)支代表一個(gè)方案,稱為方案枝
3)狀態(tài)結(jié)點(diǎn):用圓形結(jié)點(diǎn)○表示,代表備選方案的經(jīng)濟(jì)效果(期望值),通過(guò)各狀態(tài)節(jié)點(diǎn)的經(jīng)濟(jì)效果的對(duì)比,按照一定的決策標(biāo)準(zhǔn)就可以選出最佳方案。
4)概率枝:由狀態(tài)節(jié)點(diǎn)引出的分支稱為概率枝,概率枝的數(shù)目表示可能出現(xiàn)的自然狀態(tài)數(shù)目。每個(gè)分枝上要注明該狀態(tài)的內(nèi)容和其出現(xiàn)的概率。
5)結(jié)果結(jié)點(diǎn):用三角結(jié)點(diǎn)△表示,將每個(gè)方案在各種自然狀態(tài)下取得的收益值或損失值標(biāo)注于結(jié)果節(jié)點(diǎn)的右端。
總之,決策樹(shù)一般由決策結(jié)點(diǎn)、方案枝、狀態(tài)結(jié)點(diǎn)、概率枝和結(jié)果結(jié)點(diǎn)等組成,這樣樹(shù)形圖由左向右或自上而下,由簡(jiǎn)到繁展開(kāi),組成一個(gè)樹(shù)狀網(wǎng)絡(luò)圖。
決策樹(shù)學(xué)習(xí)過(guò)程:
決策樹(shù)學(xué)習(xí)過(guò)程(建樹(shù)過(guò)程)包含特征選擇、決策樹(shù)的生成與剪枝過(guò)程。決策樹(shù)的學(xué)習(xí)算法通常是遞歸地選擇最優(yōu)特征,并用最優(yōu)特征對(duì)數(shù)據(jù)集進(jìn)行分割。開(kāi)始時(shí),構(gòu)建根結(jié)點(diǎn),選擇最優(yōu)特征,該特征有幾種值就分割為幾個(gè)子集,每個(gè)子集分別遞歸調(diào)用此方法,返回結(jié)點(diǎn),返回的結(jié)點(diǎn)就是上一層的子結(jié)點(diǎn)。直到所有特征都已經(jīng)用完,或者數(shù)據(jù)集只有一維特征為止。另外,隨機(jī)森林分類器將許多決策樹(shù)結(jié)合起來(lái)以提升分類的正確率。
決策樹(shù)建樹(shù)過(guò)程的主要挑戰(zhàn)是確定哪些屬性作為根節(jié)點(diǎn)以及每個(gè)級(jí)別的節(jié)點(diǎn)。處理這些需要知道屬性選擇。目前主要有2種不同的屬性選擇方法(信息增益和基尼指數(shù))來(lái)識(shí)別這些屬性。當(dāng)信息增益作為標(biāo)準(zhǔn)時(shí),假設(shè)屬性是分類的;對(duì)于基尼系數(shù),則假設(shè)屬性是連續(xù)的。