帶你了解一下人工智能中的決策樹(shù)(DT)

時(shí)間：2020-07-18 10:36:01

關(guān)鍵字：人工智能機(jī)器學(xué)習(xí)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 在生活或工作中，人們經(jīng)常面臨各種各樣的選擇，很迷茫和困惑，正確的決策非常重要。同樣，人工智能研究中也會(huì)遇到?jīng)Q策問(wèn)題，今天就跟大家聊聊人工智能之決策樹(shù)。決策樹(shù)（DecisionTree）

在生活或工作中，人們經(jīng)常面臨各種各樣的選擇，很迷茫和困惑，正確的決策非常重要。同樣，人工智能研究中也會(huì)遇到?jīng)Q策問(wèn)題，今天就跟大家聊聊人工智能之決策樹(shù)。

決策樹(shù)（DecisionTree）是一類常見(jiàn)的機(jī)器學(xué)習(xí)方法。決策樹(shù)（DT）在人工智能中所處的位置：

人工智能－＞機(jī)器學(xué)習(xí)－＞監(jiān)督學(xué)習(xí)－＞決策樹(shù)。

在機(jī)器學(xué)習(xí)中，決策樹(shù)（DT）是一個(gè)預(yù)測(cè)（決策）模型，它所代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。決策樹(shù)算法根據(jù)數(shù)據(jù)的屬性采用樹(shù)狀結(jié)構(gòu)建立決策模型。

什么是決策樹(shù)？

決策樹(shù)（DT）是在已知各種情況發(fā)生概率的基礎(chǔ)上，通過(guò)構(gòu)成決策樹(shù)來(lái)求取凈現(xiàn)值的期望值大于等于零的概率，評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn)，判斷其可行性的決策分析方法，是直觀運(yùn)用概率分析的一種圖解法。由于這種決策分支畫(huà)成圖形很像一棵樹(shù)的枝干，故稱決策樹(shù)。從數(shù)據(jù)產(chǎn)生決策樹(shù)的機(jī)器學(xué)習(xí)技術(shù)叫做決策樹(shù)學(xué)習(xí)。

通過(guò)定義我們知道，決策樹(shù)（DT）是一種樹(shù)形結(jié)構(gòu)，樹(shù)中每個(gè)節(jié)點(diǎn)表示某個(gè)對(duì)象，而每個(gè)分叉路徑則代表的某個(gè)可能的屬性值，而每個(gè)葉結(jié)點(diǎn)則對(duì)應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對(duì)象的值。結(jié)點(diǎn)有兩種類型：內(nèi)部節(jié)點(diǎn)和葉節(jié)點(diǎn)，內(nèi)部節(jié)點(diǎn)表示一個(gè)特征、屬性或一個(gè)屬性上的測(cè)試，每個(gè)分支代表一個(gè)測(cè)試輸出，葉節(jié)點(diǎn)表示一個(gè)類別。決策樹(shù)（DT）一般都是自上而下的來(lái)生成的。每個(gè)決策或事件（即自然狀態(tài)）都可能引出兩個(gè)或多個(gè)事件，導(dǎo)致不同的結(jié)果。

決策樹(shù)（DT）是一種十分常見(jiàn)的分類方法，也稱分類樹(shù)。它是一種監(jiān)督學(xué)習(xí)，即給定一堆樣本，每個(gè)樣本都有一組屬性和一個(gè)類別，這些類別是事先確定的，那么通過(guò)學(xué)習(xí)得到一個(gè)分類器，這個(gè)分類器能夠?qū)π鲁霈F(xiàn)的對(duì)象給出正確的分類。因此，決策樹(shù)常常用來(lái)解決分類和回歸問(wèn)題。

決策樹(shù)構(gòu)成要素：

1）決策結(jié)點(diǎn)：用方塊結(jié)點(diǎn)□表示，是對(duì)幾種可能方案的選擇，即最后選擇的最佳方案。如果決策屬于多級(jí)決策，則決策樹(shù)的中間可以有多個(gè)決策點(diǎn)，以決策樹(shù)根部的決策點(diǎn)為最終決策方案。

2）方案枝：由結(jié)點(diǎn)引出若干條細(xì)支，每條細(xì)支代表一個(gè)方案，稱為方案枝

3）狀態(tài)結(jié)點(diǎn)：用圓形結(jié)點(diǎn)○表示，代表備選方案的經(jīng)濟(jì)效果（期望值），通過(guò)各狀態(tài)節(jié)點(diǎn)的經(jīng)濟(jì)效果的對(duì)比，按照一定的決策標(biāo)準(zhǔn)就可以選出最佳方案。

4）概率枝：由狀態(tài)節(jié)點(diǎn)引出的分支稱為概率枝，概率枝的數(shù)目表示可能出現(xiàn)的自然狀態(tài)數(shù)目。每個(gè)分枝上要注明該狀態(tài)的內(nèi)容和其出現(xiàn)的概率。

5）結(jié)果結(jié)點(diǎn)：用三角結(jié)點(diǎn)△表示，將每個(gè)方案在各種自然狀態(tài)下取得的收益值或損失值標(biāo)注于結(jié)果節(jié)點(diǎn)的右端。

總之，決策樹(shù)一般由決策結(jié)點(diǎn)、方案枝、狀態(tài)結(jié)點(diǎn)、概率枝和結(jié)果結(jié)點(diǎn)等組成，這樣樹(shù)形圖由左向右或自上而下，由簡(jiǎn)到繁展開(kāi)，組成一個(gè)樹(shù)狀網(wǎng)絡(luò)圖。

決策樹(shù)學(xué)習(xí)過(guò)程：

決策樹(shù)學(xué)習(xí)過(guò)程（建樹(shù)過(guò)程）包含特征選擇、決策樹(shù)的生成與剪枝過(guò)程。決策樹(shù)的學(xué)習(xí)算法通常是遞歸地選擇最優(yōu)特征，并用最優(yōu)特征對(duì)數(shù)據(jù)集進(jìn)行分割。開(kāi)始時(shí)，構(gòu)建根結(jié)點(diǎn)，選擇最優(yōu)特征，該特征有幾種值就分割為幾個(gè)子集，每個(gè)子集分別遞歸調(diào)用此方法，返回結(jié)點(diǎn)，返回的結(jié)點(diǎn)就是上一層的子結(jié)點(diǎn)。直到所有特征都已經(jīng)用完，或者數(shù)據(jù)集只有一維特征為止。另外，隨機(jī)森林分類器將許多決策樹(shù)結(jié)合起來(lái)以提升分類的正確率。

決策樹(shù)建樹(shù)過(guò)程的主要挑戰(zhàn)是確定哪些屬性作為根節(jié)點(diǎn)以及每個(gè)級(jí)別的節(jié)點(diǎn)。處理這些需要知道屬性選擇。目前主要有2種不同的屬性選擇方法（信息增益和基尼指數(shù)）來(lái)識(shí)別這些屬性。當(dāng)信息增益作為標(biāo)準(zhǔn)時(shí)，假設(shè)屬性是分類的；對(duì)于基尼系數(shù)，則假設(shè)屬性是連續(xù)的。