【AI60問】Q29什麼是機器學習？

在 Q9什麼是人工智慧？有稍微介紹何為機器學習，及它的擅長領域、演算法。以下將針對它的定義、類型、流程與應用，做更近一步的說明。

內容目錄

機器學習的定義

可以說是讓機器擁有智慧的第一步，「從以往的資料、經驗中學習，找到其運行規則，最後達到人工智慧的方法。」

它包含透過樣本訓練機器辨識出運作模式，而不是用特定規則編程序，而這些樣本可以在資料中找到。在不經過刻意導引之下，讓機器具備自我學習的能力。使用大量數據和演算法來訓練機器，讓它學習如何執行任務，訓練後會擁有判斷、預測的能力。

也能說成，機器學習是種弱人工智慧 narrow AI，它從資料中得到複雜的函數／樣本來學習，來創造演算法／規則，並利用它來做預測。在AI技術中，最廣被應用的就是機器學習，不只因為它只需要較低技術、成本，更因為機器學習的價值體現較快，所以企業多傾向於發展這項技術。

機器學習的4種類型

機器學習的資料，在模型訓練過程中是由特徵資料（feature）和真實類別／標籤（Ground truth / label）所組成。

1、監督式學習 Supervised Learning（給數據、給標籤）

在訓練電腦的過程中，有給標準答案，類似於認知感知中的「概念學習」（concept learning）。

如：
先給電腦看1,000張狗跟貓的照片，
之後問他這是狗還是貓

在監督式學習中，典型的任務是分類、迴歸分析，且需要使用到人工預先準備好的範例，依據應用方面可以分成：分類（Classification）、回歸（Regression）。

(1)、監督式分類 Supervised Classification：

分為參數型分類、非參數型分類，在統計學中，參數模型是一種可以透過結構化表達式和參數集表示的模型。

參數型 parameter-based classification：高斯分類器 Gaussian Classifier、邏輯迴歸分析 logistic regression、支撐向量機 Support Vector Machine、感知器 Perceptron

非參數型 non-parameter-based classification：K鄰近算法 K-nearest neighbors

(2)、監督式回歸 Supervised Regression：

線性回歸 Linear Regression、支撐向量回歸 Support Vector Regression

2、非監督式學習 Un-supervised learning（給數據，沒給標籤）

沒有給電腦標準答案，只提供範例，讓它自己在範例中找到潛在規則。

如：
銀行的顧客資料分析，
以年齡、性別、職業進行資料分類，
它能找出客戶比較、將相似客戶分群。

常見的非監督學習演算法：生成對抗網路（GAN）、群集

主要的叢集分析 Clustering Analysis：K均值集群算法 K-means、模糊f平均法 fuzzy c-means 、高斯混和模型 Gaussian Mixture Model

3、半監督式學習 Semi-supervised learning

介於監督學習與非監督學習之間，會先將有標籤資料、無標籤資料，畫出分界線，再將無標籤資料依據整體分佈，調整出兩大類的新分界。

少部分資料有標準答案，可提供機器學習輸出時，判斷誤差使用。但多數資料仍沒有標準答案，機器必須自己尋找答案。但此方法預測時比較精準，目前最常被使用。

4、增強學習 Reinforcement learning（透過環境和經驗修正）

通常人在做決策時，會根據目前環境的狀態，來執行動作。可能環境給我們的回饋，所執行的動作也會去改變環境，讓環境進入新的狀態。

一般人會從環境給予的回饋，讓我們修正自己的策略，試圖極大化自己的「長期報酬」。增強學習就是希望讓機器，模仿人類的這一系列行為。這個方法具有普遍性，在許多領域，如：博弈論、統計學、遺傳算法…等都有研究。

相關的步驟：

觀察到目前的狀態
執行動作
收到回饋
觀察新狀態
重複非常非常多次，直到某個終止時間

每次機器與環境互動來學習，會取得最大化的預期利益。運用增強學習的方式，不標註任何資料，但告訴它所採取的步驟是否正確。而從回饋的好壞，機器能自己修正，最終得到正確結果。

要讓非監督式學習達成一定程度的正確性，就不能缺少增強學習的方式。若機器自行辨識特徵與分類，將某張狗的照片預測成貓，則是人給予錯誤的訊息，機器會再次辨認特徵及分類。透過一次次正確的學習，會有更精準的預測。

機器學習流程7個步驟

機器學習的流程，共有以下7個步驟：

收集資料 Gathering data
準備數據 Preparing that data
選擇模型 Choosing a model
訓練機器 Training
評估分析 Evaluation
調整參數 Hyperparameter tuning
預測推論 Prediction

機器學習應用場域

機器學習廣泛應用於：資料探勘、影像辨識、語音處理、語音和手寫辨識、自然語言處理、生物特徵辨識、人臉辨識、指紋辨識、車牌辨識、搜尋引擎、醫學診斷、醫學診斷輔助、DNA序列測序、測謊、檢測信用卡欺詐、證券市場分析、推薦引擎、天氣預測、戰略遊戲、機器人…等領域。

想成為爬蟲工程師、資料分析師、資料工程師、資料分析領域專家、人工智慧產品經理嗎？還是你的公司正需要培養此領域人才呢？

點我了解AI資料科學家-三階段全方位學程班 👉 https://www.tibame.com/eventpage/ai_datascientist

每日5分鐘，提拔我園丁陪你快速添補AI/資料科學知識與技能。

若您想了解更多AI/資料科學的小知識、及各產業的相關應用，歡迎訂閱TibaMe FB及部落格，或你有其他想了解的主題歡迎在下方留言讓我們知道唷！

緯育TibaMe FB

企業人才數位轉型FB

企業AI、數位人才or平台培訓方案請點選

參考資料

人工智慧機器學習數據非監督學習監督式學習資料