【AI60問】Q23什麼是決策樹演算法?

by 提拔我園丁
緯育TibaMe AI小教室-Q23什麼是決策樹演算法?

決策樹 (Decision tree) ,它是一種機器學習演算法,可以使用它來處理分類問題,同時也稱為分類分析。

那為什麼要稱為決策樹呢?主要是借用樹的階層概念,分類過程可以用一個倒著的樹形結構而表達。從最上層的根節點開始,在每個節點挑一個特徵,經由分支去做出決策,再繼續往下一層前進,將資料分成兩等份。

  • 根節點:樣本全集
  • 內部節點:對應「特徵」屬性測試
  • 葉節點:決策的結果

但在實際應用中,讓程式自動從一堆樣本資料集中構造出這顆決策樹,這個程式自動構建決策樹的過程就是「機器學習的過程」。構造的這棵決策樹就是機器學習的結果,叫做模型。最後,可以向模型中輸入一些屬性條件,讓模型給出判斷結果。

圖23-1 機器學習的過程

它是我們使用在機器學習、資料探勘中最多的一大類算法。

決策樹模型常用於分類和回歸問題。常見的演算法,包括: CART演算法(回歸數,Classification And Regression Tree)、ID3、C4.5、隨機森林(Random Forest)…等。

【推薦學習】

結帳輸入優惠碼「BLOGONLY200」,購買上述任一堂線上課程現折$200!

決策樹構建的基本步驟

它與其他演算法最大的差異是,各個分類特徵只要經過決策樹演算法判斷後,就可以成為實際分類的規則。
它就像個黑盒子一樣,有入口與出口。 只要丟進去一個的「樣本」,即可得到一個分類的「標籤」。

  1. 將所有的特徵當作一個一個的節點
  2. 經過每個變數的每個支點分割,找到最好的分割點
  3. 分割成兩個節點N1和N2,使用第二步遍歷所有特徵,選擇出最優的特徵
  4. 對N1和N2分別繼續執行2-3步,直到每個節點足夠「葉節點」為止
舉例1:(圖23-2)
以外送披薩店顧客滿意度評價為例,用特徵「烤箱溫度」來做分類,
可得到清楚的規則是,當烤箱濕度小於或等於123度時,顧客是滿意的;
但當烤箱濕大勢大於123度,顧客不滿意。
而再進一步用濕度分類,
看出當烤箱濕度小於等於23%較多顧客滿意,當大於23%顧客評價為不滿意。
緯育TibaMeAI 60問-決策樹案例圖
圖23-2 決策樹案例圖
舉例2:
在分類器中可進行圖片內容的分類標籤 ,
在入口丟入一張小貓的照片,在出口得到一個小貓的描述標籤;
在入口丟入一張教室的照片,在出口得到一個教室的描述標籤;
這是分類器最基本的分類工作過程。
而最終分類結果是確定的值「是」(1)或「不是」(0)。

決策樹的變數型別

圖23-3 決策樹案例圖
  1. 數字型 (Numeric):變數型別是整數或浮點數,如23-3例子中的「年收入」。
    用「 >= 」、「 > 」、「<」 或「<=」作為分割條件。
    排序後,利用已有的分割情況,可以優化分割演算法的時間複雜度。
  2. 名稱型 (Nominal):類似程式語言中的列舉型別,變數只能從有限選項中選取。
    如23-3例子中的「有房產」,只能是「未婚」、「已婚」。使用「 = 」來分割。

決策樹 (Decision Tree) 是種簡單但廣泛使用的分類器。通過訓練資料構建決策樹,可以有效的對未知的資料進行分類。

【推薦學習】

結帳輸入優惠碼「BLOGONLY200」,購買上述線上課程現折$200!

三種典型的決策樹演算法

1. ID3 演算法

最早提出的決策樹演算法,是利用資訊增益來選擇特徵。

2. C4.5 演算法

ID3改進版,不是直接使用資訊增益,而是引入「資訊增益比」指標作為特徵的選擇依據。

3. CART(Classification and Regression Tree)

可用於分類,也可以用於回歸問題。CART 演算法使用吉尼係數取代了資訊熵模型。

*資訊增益:
特徵選擇中的一個重要指標,
它定義為一個特徵能為分類系統帶來多少資訊,
資訊越多,該特徵就越重要

*吉尼係數 (Gini coefficient):
經濟學中用來衡量一個「國家收入差距」的常用指標。

*資訊熵模型 (Shannon entropy):
熵是指接收的每則消息中,
包含的資訊平均量,為不確定性的量度

【推薦學習】

決策樹的優缺點

優點

  • 易於理解和解釋,可以視覺化分析,容易提出規則
  • 可同時處理數字型和名稱型資料
  • 較適合處理有缺失屬性的樣本
  • 能夠處理不相關的特徵
  • 測試資料集時,執行速度較快
  • 在相對短時間,能對大型資料來源做出可行且效果優的結果

缺點

  • 易發生過擬合
  • 易忽略資料集中屬性的相互關聯
過擬合 Overfitting
擬合了每個數據,反而丟失要的規律,
使用擬合結果去預測另一個訓練集時誤差會更為明顯。

(隨機森林可以很大程度上減少過擬合)

緯育TibaMe已經有10萬人次來學習AI/資料科學知識或技術,若你想進一步了解或學習 AI / 資料科學的相關知識或技能,歡迎來TibaMe 👉 https://bit.ly/3o4N39e

下篇將與大家分享決策樹分類過程是什麼

每日5分鐘, 提拔我園丁陪你快速添補AI/資料科學知識與技能。

若您想了解更多AI/資料科學的小知識、及各產業的相關應用,歡迎訂閱TibaMe FB及部落格,或你有其他想了解的主題歡迎在下方留言讓我們知道唷!

參考資料

分享這篇文章:
0 留言
3

您也許會喜歡

發佈留言

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料