【AI60問】Q32訓練出來的機器學習如何評估好壞?

by 提拔我園丁
緯育TibaMe AI小教室-Q32訓練出來的機器學習如何評估好壞?

機器學習領域中,模型評估很重要,只有選擇與問題互相對等的評估方法,才能讓更好的模型訓練和模型選擇的時候出現的問題,能對模型進行更好的迭代優化。

那要怎麼知道,我們訓練出來的模型成效(performance)是否好?

透過一些驗證指標(validation index)來當成效指標,能依據應用分為「分類指標」和「回歸指標」。針對分類、排序、回歸、序列預測等不同類型的機器學習問題,模型評估指標的選擇也會不一樣。

合格的演算法工程師要具備的基本功之一,就是知道機器學習在模型評估階段的關鍵問題:

  • 知道每種評估指標的精確定義
  • 有針對性的選擇合適的評估指標
  • 根據評估指標的反饋進行模型的調整

當有一個指標,就可以對比不同模型,進而得知哪個模型較好、哪個較差,並透過這個指標進一步調整,逐步優化模型,模型評估指標可以反應出模型效果。

在預測問題中,要評估模型的效果,就需要將模型預測結果f(X)和真實標註的Y相比,評估指標定義為f(X)和Y的函數:

Score = metric(f(X), Y)

由於模型好壞是相對的,對比不同的模型效果時,使用不同評估指標也會導致不同結論。

1、常用分類問題模型評估指標

分類指標是主流,主要是因為除了機器學習,許多臨床研究、統計研究也會使用。所有的分類問題都可以先產生出一個稱為混淆矩陣 Confusion matrix ,再從這個矩陣去算出成效指標。

分類

  • 二元分類 binary case:二元混淆矩陣和相對應驗證指標、ROC曲線、AUC
  • 多元分類 multiclass case:多元混淆矩陣和相對應驗證指標
*二元指標內有比較多diagnosis index算法和介紹,二元分類主要原因是醫學臨床和統計學用比較多,所以會有很多名詞,如果只是想要看分類指標可以看多元指標。

(1) 二元分類

在二元分類基本上就是分:有/沒有;真/假;正/負。True condition是資料答案,Predicted outcome是模型預測出來的結果。

  • Positive :有/真/正,在醫學上通常「有發病」
  • Negative:沒有/假/負,在醫學上通常用「沒有發病」

(2) 多元分類

評估指標:

  • 正確率(Accuracy):模型整體判斷的正確率,有時候也稱Overall accuracy,越高越好。
  • 精確率(Precision)
  • 召回率(Recall)
  • F1值(F1 score)
  • ROC曲線:ROC曲線解讀方式,會以對角線為基準,若是算出來的ROC曲線=對角線的話,代表模型完全沒有鑑別性,若ROC往左上角移動,代表模型對疾病的敏感度越高(偽陽性率(1-Specificity)越低),代表模型的鑑別力越好。
  • AUC(Area Under Curve):曲線下的面積,可判別ROC曲線的鑑別力,AUC數值的範圍從0到1,數值越大越好。
  • 對數損失(Log-Loss)

2、常用回歸問題模型評估指標

回歸是做預測一個連續的值,一般來說只希望預測值跟實際值越接近越好。回歸基本上只要評估時,評估指標要用一樣的,哪個模型的評估指標越小,就代表那個模型越好。

回歸指標

  • 平均均方誤差 Mean Square Error ,MSE
  • 平均絕對誤差 Mean Absolute Error, MAE
  • 平均均方對數誤差 Mean Squared Logarithmic Error, MSLE

評估指標

  • 均方誤差 RMSE(Root Mean Squared Error)
  • R Squared(R²)
  • Adjusted R Squared

想成為爬蟲工程師 、資料分析師 、資料工程師 、資料分析領域專家 、人工智慧產品經理嗎?還是你的公司正需要培養此領域人才呢?

點我了解 AI資料科學家-三階段全方位學程班 👉 https://www.tibame.com/eventpage/ai_datascientist 

每日5分鐘, 提拔我園丁陪你快速添補AI/資料科學知識與技能。

若想了解更多AI/資料科學的小知識、及各產業的相關應用,歡迎訂閱TibaMe FB及部落格,或有其他想了解的主題歡迎在下方留言讓我們知道唷!

參考資料

分享這篇文章:
0 留言
2

您也許會喜歡

發佈留言

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料