決策樹 (Decision tree) ,它是一種機器學習演算法,可以使用它來處理分類問題,同時也稱為分類分析。
那為什麼要稱為決策樹呢?主要是借用樹的階層概念,分類過程可以用一個倒著的樹形結構而表達。從最上層的根節點開始,在每個節點挑一個特徵,經由分支去做出決策,再繼續往下一層前進,將資料分成兩等份。
- 根節點:樣本全集
- 內部節點:對應「特徵」屬性測試
- 葉節點:決策的結果
但在實際應用中,讓程式自動從一堆樣本資料集中構造出這顆決策樹,這個程式自動構建決策樹的過程就是「機器學習的過程」。構造的這棵決策樹就是機器學習的結果,叫做模型。最後,可以向模型中輸入一些屬性條件,讓模型給出判斷結果。
它是我們使用在機器學習、資料探勘中最多的一大類算法。
決策樹模型常用於分類和回歸問題。常見的演算法,包括: CART演算法(回歸數,Classification And Regression Tree)、ID3、C4.5、隨機森林(Random Forest)…等。
【推薦學習】
結帳輸入優惠碼「BLOGONLY200」,購買上述任一堂線上課程現折$200!
決策樹構建的基本步驟
它與其他演算法最大的差異是,各個分類特徵只要經過決策樹演算法判斷後,就可以成為實際分類的規則。
它就像個黑盒子一樣,有入口與出口。 只要丟進去一個的「樣本」,即可得到一個分類的「標籤」。
- 將所有的特徵當作一個一個的節點
- 經過每個變數的每個支點分割,找到最好的分割點
- 分割成兩個節點N1和N2,使用第二步遍歷所有特徵,選擇出最優的特徵
- 對N1和N2分別繼續執行2-3步,直到每個節點足夠「葉節點」為止
舉例1:(圖23-2)
以外送披薩店顧客滿意度評價為例,用特徵「烤箱溫度」來做分類,
可得到清楚的規則是,當烤箱濕度小於或等於123度時,顧客是滿意的;
但當烤箱濕大勢大於123度,顧客不滿意。
而再進一步用濕度分類,
看出當烤箱濕度小於等於23%較多顧客滿意,當大於23%顧客評價為不滿意。
舉例2:
在分類器中可進行圖片內容的分類標籤 ,
在入口丟入一張小貓的照片,在出口得到一個小貓的描述標籤;
在入口丟入一張教室的照片,在出口得到一個教室的描述標籤;
這是分類器最基本的分類工作過程。
而最終分類結果是確定的值「是」(1)或「不是」(0)。
決策樹的變數型別
- 數字型 (Numeric):變數型別是整數或浮點數,如23-3例子中的「年收入」。
用「 >= 」、「 > 」、「<」 或「<=」作為分割條件。
排序後,利用已有的分割情況,可以優化分割演算法的時間複雜度。 - 名稱型 (Nominal):類似程式語言中的列舉型別,變數只能從有限選項中選取。
如23-3例子中的「有房產」,只能是「未婚」、「已婚」。使用「 = 」來分割。
決策樹 (Decision Tree) 是種簡單但廣泛使用的分類器。通過訓練資料構建決策樹,可以有效的對未知的資料進行分類。
【推薦學習】
結帳輸入優惠碼「BLOGONLY200」,購買上述線上課程現折$200!
三種典型的決策樹演算法
1. ID3 演算法
最早提出的決策樹演算法,是利用資訊增益來選擇特徵。
2. C4.5 演算法
ID3改進版,不是直接使用資訊增益,而是引入「資訊增益比」指標作為特徵的選擇依據。
3. CART(Classification and Regression Tree)
可用於分類,也可以用於回歸問題。CART 演算法使用吉尼係數取代了資訊熵模型。
*資訊增益:
特徵選擇中的一個重要指標,
它定義為一個特徵能為分類系統帶來多少資訊,
資訊越多,該特徵就越重要
*吉尼係數 (Gini coefficient):
經濟學中用來衡量一個「國家收入差距」的常用指標。
*資訊熵模型 (Shannon entropy):
熵是指接收的每則消息中,
包含的資訊平均量,為不確定性的量度
【推薦學習】
- 【AI基礎思維1】認識AI與資料科學
- 【AI基礎思維2】掌握AI關鍵核心技術_機器學習及深度學習
- 【AI基礎思維3】用AI看見未來_電腦視覺應用
- 【AI基礎思維4】AI有話說_文字與訊號處理
- 【AI基礎思維5】AI無所不在_活用AI產業應用
決策樹的優缺點
優點
- 易於理解和解釋,可以視覺化分析,容易提出規則
- 可同時處理數字型和名稱型資料
- 較適合處理有缺失屬性的樣本
- 能夠處理不相關的特徵
- 測試資料集時,執行速度較快
- 在相對短時間,能對大型資料來源做出可行且效果優的結果
缺點
- 易發生過擬合
- 易忽略資料集中屬性的相互關聯
* 過擬合 Overfitting:
擬合了每個數據,反而丟失要的規律,
使用擬合結果去預測另一個訓練集時誤差會更為明顯。
(隨機森林可以很大程度上減少過擬合)
緯育TibaMe已經有10萬人次來學習AI/資料科學知識或技術,若你想進一步了解或學習 AI / 資料科學的相關知識或技能,歡迎來TibaMe 👉 https://bit.ly/3o4N39e
下篇將與大家分享決策樹分類過程是什麼?
每日5分鐘, 提拔我園丁陪你快速添補AI/資料科學知識與技能。
若您想了解更多AI/資料科學的小知識、及各產業的相關應用,歡迎訂閱TibaMe FB及部落格,或你有其他想了解的主題歡迎在下方留言讓我們知道唷!
參考資料