資料探勘又稱為「資料挖掘」或者「數據挖掘」。英文是 Data Mining 或 KDD ( Knowledge-Discovery in Databases)。這個步驟是進行知識挖掘的核心,意即為從資料中挖掘出需要資訊。
主要是從資料庫中探勘出我們有興趣的隱藏樣式,或是建立可以預測描述未來可能發生事件的模型,這些樣式或者模型都可以視為我們所挖掘出的知識。再精確點說是指透過數理來分析企業內儲存的大量資訊,找出不同客戶或市場,進而分析出消費者的喜好及行為。
資料探勘歷史
簡單與大家介紹一下資料探勘的歷史,幫助大家更了解其誕生:
1960年便有數字採集資料。
1980年代,關聯式資料庫隨著能夠適應動態按需分析資料的結構化查詢語言發展起來。因而產生大量的資料需要儲存,因此資料探勘應運而生。
資料探勘是「資料庫知識發現」(Knowledge-Discovery in Databases, KDD)的分析步驟 ,屬於機器學習的範疇。
資料探勘利用一個龐大數據庫建立模型(Model),從中找出隱藏其中的特殊特徵與關聯性。如:某公司掌握客戶的資訊(包年齡、資產、交易頻率、交易量等),利用此資料庫找出其客戶消費的模式、習慣,並據此將客戶群分類,藉此針對不同客群做出精準行銷。
資料探勘的六種主要功能與應用案例 :
【推薦學習】
結帳輸入優惠碼「BLOGONLY200」,購買上述指定線上課程現折$200!
1、分類分析(Classification)
根據資料的屬性採用樹狀結構建立決策模型。透過研究數據庫中的特徵,將已知資料做出分類,並根據已知的特徵預測未經分類的新進數據。像客戶群分類。
如:
銀行針對以往數據將客戶做成不同分類,透過這樣的分類,
來區分新申請貸款的客戶,以採取相應的貸款方案。
2、分群分析(Clustering)
識別出分析對內在的規則, 把整個數據庫分成不同的群組。目的是使群與群之間有明顯的差異 ,通常用於客戶細分。針對客戶的消費特性相似或年齡特性相似等,製定一些針對不同客戶群體的營銷方案。
如:將申請人分為高度風險申請者、中度風險申請者、低度風險申請者。
3、迴歸分析(Regression)
就是“由果索因”的過程,是一種歸納的思想,透過一系列的現有數據去預測未知數據的可能值。
如:我們可以透過分析某一地區多筆房地產交易的數據庫
(包含:坪數、地點、房型、交易金額等),
對另一個未售出的房產做出成交金額預測。
4、預測分析(Time Series Forecasting)
用已知的數據來預測未來數據的可能值, 對未來的趨勢做出預測。
如:對未來經濟發展的判斷。
5、關聯分析(Association)
是指某事情發生時其他事情會發生的關聯性。通常被用來分析公司各產品被同時購買的關係與頻率。
如:顧客買啤酒時,同時也可能買香菸的機率,比重可以通過關聯的支持度和可信度來描述。
6、偏差檢測 ( Deviation Detection )
對分析對象的少數的、極端的特例的描述,揭示內在的原因。
如:在銀行的100萬筆交易中有500例的欺詐行為,
銀行透過這500筆詐欺的分析,來減少未來可能發生的風險。
【推薦學習】
緯育TibaMe已經有10萬人次來學習AI/資料科學知識或技術,若你想進一步了解或學習 AI / 資料科學的相關知識或技能,歡迎來TibaMe 👉 https://bit.ly/3o4N39e
下篇將與大家分享什麼是關聯規則學習?
每週4則,每日5分鐘, 提拔我園丁陪你快速添補AI/資料科學知識與技能。
若你想了解更多AI/資料科學的小知識、及各產業的相關應用,歡迎訂閱TibaMe FB及部落格,或你有其他想了解的主題歡迎在下方留言讓我們知道唷!
緯育TibaMe FB
企業人才數位轉型FB
企業AI、數位人才or平台培訓方案請點選
參考資料