機器學習領域中,模型評估很重要,只有選擇與問題互相對等的評估方法,才能讓更好的模型訓練和模型選擇的時候出現的問題,能對模型進行更好的迭代優化。
那要怎麼知道,我們訓練出來的模型成效(performance)是否好?
透過一些驗證指標(validation index)來當成效指標,能依據應用分為「分類指標」和「回歸指標」。針對分類、排序、回歸、序列預測等不同類型的機器學習問題,模型評估指標的選擇也會不一樣。
合格的演算法工程師要具備的基本功之一,就是知道機器學習在模型評估階段的關鍵問題:
- 知道每種評估指標的精確定義
- 有針對性的選擇合適的評估指標
- 根據評估指標的反饋進行模型的調整
當有一個指標,就可以對比不同模型,進而得知哪個模型較好、哪個較差,並透過這個指標進一步調整,逐步優化模型,模型評估指標可以反應出模型效果。
在預測問題中,要評估模型的效果,就需要將模型預測結果f(X)和真實標註的Y相比,評估指標定義為f(X)和Y的函數:
Score = metric(f(X), Y)
由於模型好壞是相對的,對比不同的模型效果時,使用不同評估指標也會導致不同結論。
1、常用分類問題模型評估指標
分類指標是主流,主要是因為除了機器學習,許多臨床研究、統計研究也會使用。所有的分類問題都可以先產生出一個稱為混淆矩陣 Confusion matrix ,再從這個矩陣去算出成效指標。
分類
- 二元分類 binary case:二元混淆矩陣和相對應驗證指標、ROC曲線、AUC
- 多元分類 multiclass case:多元混淆矩陣和相對應驗證指標
*二元指標內有比較多diagnosis index算法和介紹,二元分類主要原因是醫學臨床和統計學用比較多,所以會有很多名詞,如果只是想要看分類指標可以看多元指標。
(1) 二元分類
在二元分類基本上就是分:有/沒有;真/假;正/負。True condition是資料答案,Predicted outcome是模型預測出來的結果。
- Positive :有/真/正,在醫學上通常「有發病」
- Negative:沒有/假/負,在醫學上通常用「沒有發病」
(2) 多元分類
評估指標:
- 正確率(Accuracy):模型整體判斷的正確率,有時候也稱Overall accuracy,越高越好。
- 精確率(Precision)
- 召回率(Recall)
- F1值(F1 score)
- ROC曲線:ROC曲線解讀方式,會以對角線為基準,若是算出來的ROC曲線=對角線的話,代表模型完全沒有鑑別性,若ROC往左上角移動,代表模型對疾病的敏感度越高(偽陽性率(1-Specificity)越低),代表模型的鑑別力越好。
- AUC(Area Under Curve):曲線下的面積,可判別ROC曲線的鑑別力,AUC數值的範圍從0到1,數值越大越好。
- 對數損失(Log-Loss)
2、常用回歸問題模型評估指標
回歸是做預測一個連續的值,一般來說只希望預測值跟實際值越接近越好。回歸基本上只要評估時,評估指標要用一樣的,哪個模型的評估指標越小,就代表那個模型越好。
回歸指標
- 平均均方誤差 Mean Square Error ,MSE
- 平均絕對誤差 Mean Absolute Error, MAE
- 平均均方對數誤差 Mean Squared Logarithmic Error, MSLE
評估指標
- 均方誤差 RMSE(Root Mean Squared Error)
- R Squared(R²)
- Adjusted R Squared
想成為爬蟲工程師 、資料分析師 、資料工程師 、資料分析領域專家 、人工智慧產品經理嗎?還是你的公司正需要培養此領域人才呢?
點我了解 AI資料科學家-三階段全方位學程班 👉 https://www.tibame.com/eventpage/ai_datascientist
每日5分鐘, 提拔我園丁陪你快速添補AI/資料科學知識與技能。
若想了解更多AI/資料科學的小知識、及各產業的相關應用,歡迎訂閱TibaMe FB及部落格,或有其他想了解的主題歡迎在下方留言讓我們知道唷!
參考資料