在 Q9什麼是人工智慧?有稍微介紹何為機器學習,及它的擅長領域、演算法。以下將針對它的定義、類型、流程與應用,做更近一步的說明。
機器學習的定義
可以說是讓機器擁有智慧的第一步,「從以往的資料、經驗中學習,找到其運行規則,最後達到人工智慧的方法。」
它包含透過樣本訓練機器辨識出運作模式,而不是用特定規則編程序,而這些樣本可以在資料中找到。在不經過刻意導引之下,讓機器具備自我學習的能力。使用大量數據和演算法來訓練機器,讓它學習如何執行任務, 訓練後會擁有判斷、預測的能力。
也能說成,機器學習是種弱人工智慧 narrow AI,它從資料中得到複雜的函數/樣本來學習,來創造演算法/規則,並利用它來做預測。在AI技術中,最廣被應用的就是機器學習,不只因為它只需要較低技術、成本,更因為機器學習的價值體現較快,所以企業多傾向於發展這項技術。
機器學習的4種類型
機器學習的資料,在模型訓練過程中是由特徵資料(feature)和真實類別/標籤 (Ground truth / label)所組成。
1、監督式學習 Supervised Learning(給數據、給標籤)
在訓練電腦的過程中,有給標準答案,類似於認知感知中的「概念學習」(concept learning)。
如:
先給電腦看1,000張狗跟貓的照片,
之後問他這是狗還是貓
在監督式學習中,典型的任務是分類、迴歸分析,且需要使用到人工預先準備好的範例,依據應用方面可以分成:分類(Classification) 、回歸(Regression)。
(1)、監督式分類 Supervised Classification:
分為參數型分類、非參數型分類,在統計學中,參數模型是一種可以透過結構化表達式和參數集表示的模型。
- 參數型 parameter-based classification:高斯分類器 Gaussian Classifier、邏輯迴歸分析 logistic regression、支撐向量機 Support Vector Machine、感知器 Perceptron
- 非參數型 non-parameter-based classification:K鄰近算法 K-nearest neighbors
(2)、監督式回歸 Supervised Regression:
線性回歸 Linear Regression、支撐向量回歸 Support Vector Regression
2、非監督式學習 Un-supervised learning(給數據,沒給標籤)
沒有給電腦標準答案,只提供範例,讓它自己在範例中找到潛在規則。
如:
銀行的顧客資料分析,
以年齡、性別、職業進行資料分類,
它能找出客戶比較、將相似客戶分群。
常見的非監督學習演算法:生成對抗網路(GAN)、群集
主要的叢集分析 Clustering Analysis:K均值集群算法 K-means、模糊f平均法 fuzzy c-means 、高斯混和模型 Gaussian Mixture Model
3、半監督式學習 Semi-supervised learning
介於監督學習與非監督學習之間,會先將有標籤資料、無標籤資料,畫出分界線,再將無標籤資料依據整體分佈,調整出兩大類的新分界。
少部分資料有標準答案,可提供機器學習輸出時,判斷誤差使用。但多數資料仍沒有標準答案,機器必須自己尋找答案。但此方法預測時比較精準,目前最常被使用。
4、增強學習 Reinforcement learning(透過環境和經驗修正)
通常人在做決策時,會根據目前環境的狀態,來執行動作。可能環境給我們的回饋,所執行的動作也會去改變環境,讓環境進入新的狀態。
一般人會從環境給予的回饋,讓我們修正自己的策略,試圖極大化自己的「長期報酬」。增強學習就是希望讓機器,模仿人類的這一系列行為。這個方法具有普遍性,在許多領域,如:博弈論、統計學、遺傳算法…等都有研究。
相關的步驟:
- 觀察到目前的狀態
- 執行動作
- 收到回饋
- 觀察新狀態
- 重複非常非常多次,直到某個終止時間
每次機器與環境互動來學習,會取得最大化的預期利益。運用增強學習的方式,不標註任何資料,但告訴它所採取的步驟是否正確。而從回饋的好壞,機器能自己修正,最終得到正確結果。
要讓非監督式學習達成一定程度的正確性,就不能缺少增強學習的方式。若機器自行辨識特徵與分類,將某張狗的照片預測成貓,則是人給予錯誤的訊息,機器會再次辨認特徵及分類。透過一次次正確的學習,會有更精準的預測。
機器學習流程7個步驟
機器學習的流程,共有以下7個步驟:
- 收集資料 Gathering data
- 準備數據 Preparing that data
- 選擇模型 Choosing a model
- 訓練機器 Training
- 評估分析 Evaluation
- 調整參數 Hyperparameter tuning
- 預測推論 Prediction
機器學習應用場域
機器學習廣泛應用於:資料探勘、影像辨識、語音處理、語音和手寫辨識、自然語言處理、生物特徵辨識、人臉辨識、指紋辨識、車牌辨識、搜尋引擎、醫學診斷、醫學診斷輔助、DNA序列測序、測謊、檢測信用卡欺詐、證券市場分析、推薦引擎、天氣預測、戰略遊戲、機器人…等領域。
想成為爬蟲工程師 、資料分析師 、資料工程師 、資料分析領域專家 、人工智慧產品經理嗎?還是你的公司正需要培養此領域人才呢?
點我了解AI資料科學家-三階段全方位學程班 👉 https://www.tibame.com/eventpage/ai_datascientist
每日5分鐘, 提拔我園丁陪你快速添補AI/資料科學知識與技能。
若您想了解更多AI/資料科學的小知識、及各產業的相關應用,歡迎訂閱TibaMe FB及部落格,或你有其他想了解的主題歡迎在下方留言讓我們知道唷!
參考資料