【AI60問】Q23什麼是決策樹演算法？

決策樹 (Decision tree) ，它是一種機器學習演算法，可以使用它來處理分類問題，同時也稱為分類分析。

那為什麼要稱為決策樹呢？主要是借用樹的階層概念，分類過程可以用一個倒著的樹形結構而表達。從最上層的根節點開始，在每個節點挑一個特徵，經由分支去做出決策，再繼續往下一層前進，將資料分成兩等份。

根節點：樣本全集
內部節點：對應「特徵」屬性測試
葉節點：決策的結果

但在實際應用中，讓程式自動從一堆樣本資料集中構造出這顆決策樹，這個程式自動構建決策樹的過程就是「機器學習的過程」。構造的這棵決策樹就是機器學習的結果，叫做模型。最後，可以向模型中輸入一些屬性條件，讓模型給出判斷結果。

它是我們使用在機器學習、資料探勘中最多的一大類算法。

決策樹模型常用於分類和回歸問題。常見的演算法，包括： CART演算法（回歸數，Classification And Regression Tree）、ID3、C4.5、隨機森林（Random Forest）…等。

【推薦學習】

結帳輸入優惠碼「BLOGONLY200」，購買上述任一堂線上課程現折$200！

內容目錄

決策樹構建的基本步驟

它與其他演算法最大的差異是，各個分類特徵只要經過決策樹演算法判斷後，就可以成為實際分類的規則。
它就像個黑盒子一樣，有入口與出口。只要丟進去一個的「樣本」，即可得到一個分類的「標籤」。

將所有的特徵當作一個一個的節點
經過每個變數的每個支點分割，找到最好的分割點
分割成兩個節點N1和N2，使用第二步遍歷所有特徵，選擇出最優的特徵
對N1和N2分別繼續執行2-3步，直到每個節點足夠「葉節點」為止

舉例1：（圖23-2）
以外送披薩店顧客滿意度評價為例，用特徵「烤箱溫度」來做分類，
可得到清楚的規則是，當烤箱濕度小於或等於123度時，顧客是滿意的；
但當烤箱濕大勢大於123度，顧客不滿意。
而再進一步用濕度分類，
看出當烤箱濕度小於等於23%較多顧客滿意，當大於23%顧客評價為不滿意。

舉例2：
在分類器中可進行圖片內容的分類標籤 ，
在入口丟入一張小貓的照片，在出口得到一個小貓的描述標籤；
在入口丟入一張教室的照片，在出口得到一個教室的描述標籤； 
這是分類器最基本的分類工作過程。 
而最終分類結果是確定的值「是」（1）或「不是」（0）。

決策樹的變數型別

數字型 (Numeric)：變數型別是整數或浮點數，如23-3例子中的「年收入」。
用「 >= 」、「 > 」、「<」或「<=」作為分割條件。
排序後，利用已有的分割情況，可以優化分割演算法的時間複雜度。
名稱型 (Nominal)：類似程式語言中的列舉型別，變數只能從有限選項中選取。
如23-3例子中的「有房產」，只能是「未婚」、「已婚」。使用「 = 」來分割。

決策樹 (Decision Tree) 是種簡單但廣泛使用的分類器。通過訓練資料構建決策樹，可以有效的對未知的資料進行分類。

【推薦學習】

資料探勘速成攻略，輕鬆駕馭資料分析與實務應用

結帳輸入優惠碼「BLOGONLY200」，購買上述線上課程現折$200！

三種典型的決策樹演算法

1. ID3 演算法

最早提出的決策樹演算法，是利用資訊增益來選擇特徵。

2. C4.5 演算法

ID3改進版，不是直接使用資訊增益，而是引入「資訊增益比」指標作為特徵的選擇依據。

3. CART（Classification and Regression Tree）

可用於分類，也可以用於回歸問題。CART 演算法使用吉尼係數取代了資訊熵模型。

*資訊增益：
特徵選擇中的一個重要指標，
它定義為一個特徵能為分類系統帶來多少資訊，
資訊越多，該特徵就越重要

*吉尼係數 (Gini coefficient)：
經濟學中用來衡量一個「國家收入差距」的常用指標。

*資訊熵模型 (Shannon entropy)：
熵是指接收的每則消息中，
包含的資訊平均量，為不確定性的量度

【推薦學習】

決策樹的優缺點

優點

易於理解和解釋，可以視覺化分析，容易提出規則
可同時處理數字型和名稱型資料
較適合處理有缺失屬性的樣本
能夠處理不相關的特徵
測試資料集時，執行速度較快
在相對短時間，能對大型資料來源做出可行且效果優的結果

缺點

易發生過擬合
易忽略資料集中屬性的相互關聯

* 過擬合 Overfitting：
擬合了每個數據，反而丟失要的規律，
使用擬合結果去預測另一個訓練集時誤差會更為明顯。

（隨機森林可以很大程度上減少過擬合）

緯育TibaMe已經有10萬人次來學習AI/資料科學知識或技術，若你想進一步了解或學習 AI / 資料科學的相關知識或技能，歡迎來TibaMe 👉 https://bit.ly/3o4N39e

下篇將與大家分享決策樹分類過程是什麼？

每日5分鐘，提拔我園丁陪你快速添補AI/資料科學知識與技能。

若您想了解更多AI/資料科學的小知識、及各產業的相關應用，歡迎訂閱TibaMe FB及部落格，或你有其他想了解的主題歡迎在下方留言讓我們知道唷！

參考資料

決策樹演算法決策樹原理決策樹範例決策樹步驟

【AI60問】Q23什麼是決策樹演算法？

決策樹構建的基本步驟

決策樹的變數型別

三種典型的決策樹演算法

1. ID3 演算法

2. C4.5 演算法

3. CART（Classification and Regression Tree）

決策樹的優缺點

優點

缺點

您也許會喜歡

發佈留言 Cancel Reply