資料科學/人工智慧的工作流程第二階段主要工作為「資料前處理」(如圖18-1),根據資料顯示,「資料前處理」佔資料科學工作流程60%的時間,在Q16有稍微提及「資料前處理」,它是對從資料庫中取出的資料集,進行「資料清理」,處理資料中包含雜訊、錯誤訊息,或是想使用多個資料集也會進行「資料整合」。
為什麼要「資料前整理」?
一般來說,許多真實的資料來源都很多元,我們不能保證每個來源都收到最高品質的資料。現在多數資料品質會有不完整、雜訊、格式不一致…等問題,而只有高品質的資料,才能訓練精準模型,同時把握資料品質與模型的準確度。
「資料前整理」它包含資料清理 (Data Cleaning)、資料整合 (Data Integration)、資料轉換 (Data Transformation) 這三種不同類型的工作。
以下針對它的三種類型工作內容,進行近一步說明:
1、資料清理 (Data Cleaning)
資料前處理的第一步就是「資料清理」,需要先將資料中的問題處理,把資料中缺失的值補充完整、消除資料、識別或刪除離群點並解決不一致性。
主要試想達到以下目標,包含:資料格式標準化、異常資料清除、錯誤糾正、重複資料清除。
而資料中可能會一些因素,造成某些資料不見或不存在,這樣的缺失稱為缺失值 (Missing Data)。
(1) 處理缺失值
面對缺失值的處理策略主要可以分成「刪除」或「填補」兩種策略,能細分為以下手法:
- 直接刪除含有缺失值的資料或欄位
- 人工填補缺失值
- 常數 (0/-1)或通用值 (Unknown) 填補缺失值
- 類似資料/全部資料的統計值填補缺失值
- 利用統計方法進行補值 (內差/回歸)
- 利用機器學習方法進行補值 (預測)
- 填補固定值:例如可以填補「未知」在類別型的資料當中,連續型的資料可以填補0
- 填補平均值:數值型的資料,填補平均值
- 填補高頻資料:類別型的資料,填補最常出現的項目
(2) 處理異常值及雜訊問題
而遇到異常值(Outliers) / 雜訊(Noise)的話,要先找出哪些點可能是異常值 / 雜訊 ,可以透過集群分析方法 / 迴歸分析方法,來進行處理。
* 集群分析:是一種精簡資料的方法,依據樣本之間的共同屬性,將比較相似的樣本聚集在一起,形成集群。常以距離作為分類依據,相對距離愈近、相似程度愈高,分群之後可以使得群內差異小、群間差異大。
* 迴歸分析:是一種預測建模技術,可以被用來研究因變數(目標)和自變數(預測)間的關係,常見於預測建模、時間序列建模和查找變數間關係等應用。
2、資料整合 (Data Integration)
「資料整合」是將不同來源資料聚集在一起,也可以稱為合併資料,以更有價值的方式來集中檢視資料,來改善企業的決策速度和品質。但因為資料都來自不同的資料源,會產生資料對不了、或是重複。
舉個案例:在地理資料合併,不同的資料要採用不同的座標系,在合併之前就需要先處理過。但有時候,是相同的資料,也有可能因為在不同的資料或取名的差異,合併時,變成兩筆不同資料。在資料整合的時候,必須要先檢查兩個的資料表中,有哪些屬性、是如何記錄、討論該如何化異為同,再透過資料屬性來合併。
資料整合可以整併所有類型的資料 (結構化、非結構化、批次和串流…等),有利於完成難易度不同的工作,從庫存資料庫的基本查詢,到複雜的預測分析都不成問題。
(1) 資料整合平台的8個工具
資料整合平台,包含以下工具:
- 資料前處理 (ETL) 工具:是擷取 (Extract)、轉換 (Transform) 、載入 (Load) 的英文縮寫,最常見的資料整合方法。
- 資料擷取:能取得、匯入資料,不只可以馬上使用,也可儲存以備後用
- 資料目錄:幫助企業尋找、清查分散在多個資料庫中的資料資產
- 資料管理工具:確保資料的供應情形、安全性、可用性和完整性
- 資料清理工具:透過更換、修改或刪除方式,清理品質不好的資料
- 資料遷移工具:在電腦、儲存系統或app間移動資料
- 主要資料管理工具:協助企業遵守通用的資料定義,並實現單一可靠來源
- 資料連接器:在不同資料庫間移動資料,還可以執行轉換
(2) 資料整合的5大用途
- 開發資料湖泊:將資料從原本獨立的內部平台,移動到資料湖泊中,增加資料的價值。
- 發展資料倉儲:將各種來源的資料合併到資料倉儲中,幫助業務分析。
- 彙整行銷:可將所有行銷資料 (如:客戶統計資料、社群網路和網站分析資料) 移到同一位置,幫助分析及執行。
- 處理IoT:助於未來多個 IoT 來源的資料集中到同一處,能發揮它的價值。
- 資料庫複製:將資料從 Oracle、MongoDB或MySQL…來源資料庫,複製到雲端資料倉儲系統的過程中,扮演核心角色。
3、資料轉換 (Data Transformation)
「資料轉換」是為了讓資料數值在分析時,不容易產生誤判錯誤。重點是資料數值該如何轉換?
重點是資料數值該如何轉換?
常見的方法有:平衡化、一般化、標準化
- 平衡化:讓雜訊產生的干擾降低
- 一般化:為了太過細節的資料,變得比較標準
- 標準化:讓資料的數值縮減到一個區間內,避免讓某個屬性的影響被放大或縮小
以上,簡單介紹3種資料前處理的工作、工具及用途,希望讓你對於「資料前處理」能有更完整的概念。
緯育TibaMe已經有10萬人次來學習AI/資料科學知識或技術,若你想進一步了解或學習 AI / 資料科學的相關知識或技能,歡迎來TibaMe 👉 https://bit.ly/3o4N39e
下篇開始將為大家整理及說明 什麼是資料儲存?
每週4則,每日5分鐘, 提拔我園丁陪你快速添補AI/資料科學知識與技能。
若你想了解更多AI/資料科學的小知識、及各產業的相關應用,歡迎訂閱TibaMe FB及部落格,或你有其他想了解的主題歡迎在下方留言讓我們知道唷!
緯育TibaMe FB
企業人才數位轉型FB
企業AI、數位人才or平台培訓方案請點選
參考資料