【AI60問】Q33如何選擇機器學習的模型?

by 提拔我園丁
緯育TibaMe AI小教室-Q33如何選擇機器學習的模型?

在Q32,為大家整理了11種機器學習常見的演算法。這章將進一步與大家分享如何挑選演算法。

挑選機器學習演算法(Machine Learning Algorithm)就如同挑選適合的鞋,我們不會只考慮性能,否則我們都會選擇穿著要價上千元的輕量慢跑鞋;我們會根據使用情況挑選適合的款式:有些鞋子適合用來站一整天,有些鞋子則適合用來爬山。鞋子的價格通常很重要;但鞋子的外型可能比什麼都還重要。

這些考量套用在演算法上也是一樣的。 沒有一種解決方案或一種適合所有情況的算法。 有些演算法很容易解釋,有些演算法很能處理雜訊、資料缺失等問題,演算法所需的執行時間很重要。

有幾個因素會影響您選擇哪種機器學習。 初學者經常面臨著如何從各種各樣的機器學習演算法中選擇解決自己感興趣問題的方法,要解決該問題可以從以下幾個因素來考慮:

  • 數據的大小、質量和性質
  • 擁有的計算資源和可以接收的計算時間
  • 任務的緊迫程度
  • 期望從數據中挖掘的內容

在選擇機器學習算法時所做的一些決定,更多地取決於商業決策,而不是優化或者算法的技術面。即使是經驗豐富的數據科學家也無法在嘗試不同的演算法之前,告訴你哪個演算法性能最好。

當然,這裡也不是要提出一種能夠一次性解決演算法選擇的問題,只是希望能提供指導性建議,讓你可以根據因素先嘗試可能性較大的演算法。


圖 33-1、 機器學習演算法速查表
資料來源:SAS

機器學習演算法速查表

機器學習演算法速查表如圖33-1(Which machine learning algorithm should I use?)來源SAS Blogs。

本速查表是面對資料採擷或分析的初學者,在討論這些機器學習演算法時做一些簡單的假設。

速查表中推薦的演算法根據一些資料科學家、機器學習專家和開發者的回饋和提示編制的。其中還有一些有爭議的問題,這些機器學習專家也試圖強調這些問題的共性,並調和他們之間的差異。

如何使用速查表

速查表中的路徑(path)和演算法(algorithm)標簽按照 “如果(if)<路徑標簽>,那麽(then)<演算法標簽>” 的方式進行查閱。

例如:

  • 想執行降維(dimension reduction)操作,可以採用主成分分析(principle component analysis)方法。
  • 需要快速進行數值預測(numberic prediction),可以採用決策樹(decision trees)或者邏輯回歸(logistic regression)。
  • 需要分層的輸出結果(hieriarchical results),可以選用層次群集(hieriarchical clustering)

有些時候可能會採用多個分支,而有時也可能沒有非常匹配的演算法選擇。

*註:這些演算法路徑是爲了提供一種經驗上的建議,所以可能有些建議不一定準確。

想成為爬蟲工程師 、資料分析師 、資料工程師 、資料分析領域專家 、人工智慧產品經理嗎?還是你的公司正需要培養此領域人才呢?

點我了解 AI資料科學家-三階段全方位學程班 👉 https://www.tibame.com/eventpage/ai_datascientist 

每日5分鐘, 提拔我園丁陪你快速添補AI/資料科學知識與技能。

若想了解更多AI/資料科學的小知識、及各產業的相關應用,歡迎訂閱TibaMe FB及部落格,或你有其他想了解的主題歡迎在下方留言讓我們知道唷!

參考資料

分享這篇文章:
0 留言
2

您也許會喜歡

發佈留言

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料