【AI60問】Q32訓練出來的機器學習如何評估好壞？

機器學習領域中，模型評估很重要，只有選擇與問題互相對等的評估方法，才能讓更好的模型訓練和模型選擇的時候出現的問題，能對模型進行更好的迭代優化。

那要怎麼知道，我們訓練出來的模型成效（performance）是否好？

透過一些驗證指標（validation index）來當成效指標，能依據應用分為「分類指標」和「回歸指標」。針對分類、排序、回歸、序列預測等不同類型的機器學習問題，模型評估指標的選擇也會不一樣。

合格的演算法工程師要具備的基本功之一，就是知道機器學習在模型評估階段的關鍵問題：

當有一個指標，就可以對比不同模型，進而得知哪個模型較好、哪個較差，並透過這個指標進一步調整，逐步優化模型，模型評估指標可以反應出模型效果。

在預測問題中，要評估模型的效果，就需要將模型預測結果f（X）和真實標註的Y相比，評估指標定義為f（X）和Y的函數：

Score = metric（f（X）, Y）

由於模型好壞是相對的，對比不同的模型效果時，使用不同評估指標也會導致不同結論。

分類指標是主流，主要是因為除了機器學習，許多臨床研究、統計研究也會使用。所有的分類問題都可以先產生出一個稱為混淆矩陣 Confusion matrix ，再從這個矩陣去算出成效指標。

分類

*二元指標內有比較多diagnosis index算法和介紹，二元分類主要原因是醫學臨床和統計學用比較多，所以會有很多名詞，如果只是想要看分類指標可以看多元指標。

(1) 二元分類

在二元分類基本上就是分：有／沒有；真／假；正／負。True condition是資料答案，Predicted outcome是模型預測出來的結果。

(2) 多元分類

評估指標：

正確率（Accuracy）：模型整體判斷的正確率，有時候也稱Overall accuracy，越高越好。
精確率（Precision）
召回率（Recall）
F1值（F1 score）
ROC曲線：ROC曲線解讀方式，會以對角線為基準，若是算出來的ROC曲線＝對角線的話，代表模型完全沒有鑑別性，若ROC往左上角移動，代表模型對疾病的敏感度越高(偽陽性率(1-Specificity)越低)，代表模型的鑑別力越好。
AUC（Area Under Curve）：曲線下的面積，可判別ROC曲線的鑑別力，AUC數值的範圍從0到1，數值越大越好。
對數損失（Log-Loss）

回歸是做預測一個連續的值，一般來說只希望預測值跟實際值越接近越好。回歸基本上只要評估時，評估指標要用一樣的，哪個模型的評估指標越小，就代表那個模型越好。

回歸指標

評估指標

想成為爬蟲工程師、資料分析師、資料工程師、資料分析領域專家、人工智慧產品經理嗎？還是你的公司正需要培養此領域人才呢？

點我了解 AI資料科學家-三階段全方位學程班 👉 https://www.tibame.com/eventpage/ai_datascientist

每日5分鐘，提拔我園丁陪你快速添補AI/資料科學知識與技能。

若想了解更多AI/資料科學的小知識、及各產業的相關應用，歡迎訂閱TibaMe FB及部落格，或有其他想了解的主題歡迎在下方留言讓我們知道唷！

參考資料