【AI60問】Q18資料前處理的3種工作與應用？

資料科學/人工智慧的工作流程第二階段主要工作為「資料前處理」(如圖18-1)，根據資料顯示，「資料前處理」佔資料科學工作流程60%的時間，在Q16有稍微提及「資料前處理」，它是對從資料庫中取出的資料集，進行「資料清理」，處理資料中包含雜訊、錯誤訊息，或是想使用多個資料集也會進行「資料整合」。

內容目錄

為什麼要「資料前整理」？

一般來說，許多真實的資料來源都很多元，我們不能保證每個來源都收到最高品質的資料。現在多數資料品質會有不完整、雜訊、格式不一致…等問題，而只有高品質的資料，才能訓練精準模型，同時把握資料品質與模型的準確度。

「資料前整理」它包含資料清理 (Data Cleaning)、資料整合 (Data Integration)、資料轉換 (Data Transformation) 這三種不同類型的工作。

以下針對它的三種類型工作內容，進行近一步說明：

1、資料清理 (Data Cleaning)

資料前處理的第一步就是「資料清理」，需要先將資料中的問題處理，把資料中缺失的值補充完整、消除資料、識別或刪除離群點並解決不一致性。

主要試想達到以下目標，包含：資料格式標準化、異常資料清除、錯誤糾正、重複資料清除。

而資料中可能會一些因素，造成某些資料不見或不存在，這樣的缺失稱為缺失值 (Missing Data)。

(1) 處理缺失值

面對缺失值的處理策略主要可以分成「刪除」或「填補」兩種策略，能細分為以下手法：

直接刪除含有缺失值的資料或欄位
人工填補缺失值
常數 (0/-1)或通用值 (Unknown) 填補缺失值
類似資料/全部資料的統計值填補缺失值
利用統計方法進行補值 (內差/回歸)
利用機器學習方法進行補值 (預測)

填補固定值：例如可以填補「未知」在類別型的資料當中，連續型的資料可以填補0
填補平均值：數值型的資料，填補平均值
填補高頻資料：類別型的資料，填補最常出現的項目

(2) 處理異常值及雜訊問題

而遇到異常值(Outliers) / 雜訊(Noise)的話，要先找出哪些點可能是異常值 / 雜訊，可以透過集群分析方法 / 迴歸分析方法，來進行處理。

* 集群分析：是一種精簡資料的方法，依據樣本之間的共同屬性，將比較相似的樣本聚集在一起，形成集群。常以距離作為分類依據，相對距離愈近、相似程度愈高，分群之後可以使得群內差異小、群間差異大。
* 迴歸分析：是一種預測建模技術，可以被用來研究因變數(目標)和自變數(預測)間的關係，常見於預測建模、時間序列建模和查找變數間關係等應用。

2、資料整合 (Data Integration)

「資料整合」是將不同來源資料聚集在一起，也可以稱為合併資料，以更有價值的方式來集中檢視資料，來改善企業的決策速度和品質。但因為資料都來自不同的資料源，會產生資料對不了、或是重複。

舉個案例：在地理資料合併，不同的資料要採用不同的座標系，在合併之前就需要先處理過。但有時候，是相同的資料，也有可能因為在不同的資料或取名的差異，合併時，變成兩筆不同資料。在資料整合的時候，必須要先檢查兩個的資料表中，有哪些屬性、是如何記錄、討論該如何化異為同，再透過資料屬性來合併。

資料整合可以整併所有類型的資料 (結構化、非結構化、批次和串流…等)，有利於完成難易度不同的工作，從庫存資料庫的基本查詢，到複雜的預測分析都不成問題。

(1) 資料整合平台的8個工具

資料整合平台，包含以下工具：

資料前處理 (ETL) 工具：是擷取 (Extract)、轉換 (Transform) 、載入 (Load) 的英文縮寫，最常見的資料整合方法。
資料擷取：能取得、匯入資料，不只可以馬上使用，也可儲存以備後用
資料目錄：幫助企業尋找、清查分散在多個資料庫中的資料資產
資料管理工具：確保資料的供應情形、安全性、可用性和完整性
資料清理工具：透過更換、修改或刪除方式，清理品質不好的資料
資料遷移工具：在電腦、儲存系統或app間移動資料
主要資料管理工具：協助企業遵守通用的資料定義，並實現單一可靠來源
資料連接器：在不同資料庫間移動資料，還可以執行轉換

(2) 資料整合的5大用途

開發資料湖泊：將資料從原本獨立的內部平台，移動到資料湖泊中，增加資料的價值。
發展資料倉儲：將各種來源的資料合併到資料倉儲中，幫助業務分析。
彙整行銷：可將所有行銷資料 (如：客戶統計資料、社群網路和網站分析資料) 移到同一位置，幫助分析及執行。
處理IoT：助於未來多個 IoT 來源的資料集中到同一處，能發揮它的價值。
資料庫複製：將資料從 Oracle、MongoDB或MySQL…來源資料庫，複製到雲端資料倉儲系統的過程中，扮演核心角色。

3、資料轉換 (Data Transformation)

「資料轉換」是為了讓資料數值在分析時，不容易產生誤判錯誤。重點是資料數值該如何轉換？

重點是資料數值該如何轉換？

常見的方法有：平衡化、一般化、標準化

平衡化：讓雜訊產生的干擾降低
一般化：為了太過細節的資料，變得比較標準
標準化：讓資料的數值縮減到一個區間內，避免讓某個屬性的影響被放大或縮小

以上，簡單介紹3種資料前處理的工作、工具及用途，希望讓你對於「資料前處理」能有更完整的概念。

緯育TibaMe已經有10萬人次來學習AI/資料科學知識或技術，若你想進一步了解或學習 AI / 資料科學的相關知識或技能，歡迎來TibaMe 👉 https://bit.ly/3o4N39e

下篇開始將為大家整理及說明 什麼是資料儲存？

每週4則，每日5分鐘，提拔我園丁陪你快速添補AI/資料科學知識與技能。

若你想了解更多AI/資料科學的小知識、及各產業的相關應用，歡迎訂閱TibaMe FB及部落格，或你有其他想了解的主題歡迎在下方留言讓我們知道唷！

緯育TibaMe FB
企業人才數位轉型FB
企業AI、數位人才or平台培訓方案請點選

參考資料

資料前處理資料清理資料整合方法資料轉換自動化管理