AI60問-Q16資料蒐集的3個關鍵工作?

by 提拔我園丁
緯育TibaMe AI小教室-Q16什麼是資料蒐集?

資料科學 / 人工智慧的工作流程,有個基本原則,就是「從資料開始,透過一連串的過程發現隱藏在資料中的規則,再利用這些規則完成一些有趣的應用。」

它可以分為5個主要工作流程,包括資料蒐集、資料前處理、資料儲存、資料分析、資料視覺化 (如圖16-1)。這些流程看似單一,卻需要不斷反覆的嘗試、層層探索,才能找到真正具有價值的資料。

 圖16-1 資料科學 / 人工智慧主要工作流程
圖16-1 資料科學 / 人工智慧主要工作流程

資料科學/AI 的5個主要工作流程

1、資料蒐集:

  • 定義商務問題及目標
  • 定義資料分析問題和目標
  • 從資料源選擇和蒐集資料
  • 網路爬蟲

蒐集相關資料的過程,為資料分析提供素材。從原始資料到決定存放資料庫的過程,通常與資料獲取、資料爬蟲、資料庫管理、資料倉儲…等議題有關。

這是資料分析專案的關鍵,要蒐集到可回答的問題、可信賴的資料,才能使後面建立好的分析模型,獲得好的觀點。是否能有效的跟領域專家辨認出資料可以解決的問題,針對專家的業務問題和目標,定義出正確的資料分析問題,並規劃資料蒐集的範圍與流程。

確保資料來源的可信度,讓後面的分析具有價值,這個階段除了需要對於領域問題有基本了解,更需大量時間蒐集並處理資料。

2、資料前處理:

  • 資料清理
  • 資料整合
  • 資料轉變
  • 管理各種來源資料自動化

對從資料庫中取出的資料集,進行「資料清理」,處理資料中包含雜訊、錯誤訊息,或是想使用多個資料集也會進行「資料整合」。

3、資料儲存:

  • 建構資料倉儲、資料湖泊
  • 關聯式資料庫
  • 非關聯式資料庫

在資料儲存的階段,資料分析師需要了解資料儲存內部的工作流程,最核心的因素是在原始資料基礎上經過哪些加工處理,最後得到哪些資料。

由於資料在儲存階段是不斷變化和更新,它的即時性、完整性、一制性、準確性,都可能因為軟硬體或是環境問題而影響後期的應用。

4、資料分析:

  • 線上分析
  • 資料探勘
  • 機器學習
  • 深度學習

分成兩個階段:探索性分析 Exploratory Data Analysis、與資料探勘/機器學習 Data Mining/Machine Learning。能將探索性分析視為是一種前期觀察,再經由資料探勘進行下一步挖掘。

  • 探索性分析:資料提取是將資料取出的過程,它的核心環節是從哪取、何時取、如何取。

    (1) 從哪取—資料來源,不同資料源得到的結果未必相同。
    (2) 何時取—提取時間,不同時間取出來的資料結果未必相同。
    (3) 如何取—提取規則,不同提取規則下的資料結果很難相同。
  • 資料探勘 / 機器學習:面對巨量資料時,進行資料價值提煉的關鍵。
    以下是演算法選擇的基本原則「沒有最好的演算法,只有最適合的演算法。」

    資料分析師在資料探勘階段,需要具備的能力:
    (1) 資料探勘、統計學、數學基本原理和常識
    (2) 使用一門資料探勘工具:Clementine、SAS或R
    (3) 了解常用的資料採擷演算法、每種演算法的應用場景和優劣差異點
  • 資料分析
    資料分析相較於資料探勘,更偏向業務應用和解讀。
    當資料探勘演算法得出結論後,如何解釋演算法在結果、可信度、顯著程度…等方面對於業務的意義,如何將結果回饋到業務執行過程中,使業務理解和實施就是關鍵。

5、資料視覺化:

  • 視覺化資料結果
  • 得出商務洞見或預測結果
  • 溝通利益關係人對資料分析採取行動

資料展現就是將資料觀點展現給業務的過程,透過視覺化、圖表的方式來解釋,表達結果。並運用可能的原因,整合這些東西的關聯性。

多數企業主管喜歡看圖表、看趨勢,執行單位喜歡看數字、看文字。資料展現可以輔助資料內容,讓它成為更具價值的資料內容。

而資料應用可以將資料展現其價值,需要資料分析師以資料溝通能力、業務推動能力、項目工作能力來完成。

  • 資料溝通能力:資料報告、資料結論
  • 業務推動能力:推動業務落地實現資料建議,資料結論要具備客觀的應用條件
  • 項目工作能力:不論專案或資料分析項目,都需要計劃、領導、組織的項目工作能力

以上簡單概述,資料科學 / 人工智慧的主要工作流程,那回歸到「資料蒐集」有哪些具體的工作與任務?
可以分為以下三項主要指標工作。

1、清楚定義「商務問題與目標

第一項最重要的工作是,清楚定義「商務的問題與目標」。由於企業要提高營運績效,隨時都會檢視業務的工作項目,因此我們需要依照業務的工作項目來設定業務問題的需求,好解決業務問題。

如:業務需求為「尋找哪些商品可組合銷售?」,則在「商品組合問題」中,所設計的分析需求為「針對商店、商品、品目做營業收入分析」、「針對商品組合做出2020年與2021年營業收入分析」、「針對商店、商品組合做最好/最差銷售分析」…等多項功能。

理解哪些對你來說是「有趣、有用」的資訊,你想使用這些「有趣、有用的事情」完成什麼目標。

2、定義「資料分析的問題與目標」

再來,要考驗資料科學家對於不同模型及理論的掌握程度。

已經定義出正確的領域問題後,資料科學家要思考這個問題該如何被資料解答。首先可以思考這是「解釋」、「個體預測」、還是「趨勢預測」的問題,定義完成,再去思考目前有哪些統計方法/機器學習演算法,符合這個情境,最後再確認這個方法,能夠正確的回答。

3、從資料源選擇和蒐集資料

這項工作的困難之處在於「確保資料的真實性與可信度」,主要是因為我們在蒐集資料前,不一定知道真實資料的樣貌,且如果我們以為蒐集到的資料是正確的,接下來做分析並得出結論,又可能會與事實不符…

因此,在蒐集資料時,資料科學家、商務領域專家要試著定義「清楚樣本資料」,讓蒐集者知道該蒐集哪些資料,在過程中也要不斷檢視資料是否符合預期。

這項工作與「資料清理與轉換」是資料科學 / 人工智慧的主要工作流程中,最耗費人力與時間的兩個步驟。

緯育TibaMe已經有10萬人次來學習AI/資料科學知識或技術,若你想進一步了解或學習 AI / 資料科學的相關知識或技能,歡迎來TibaMe 👉 https://www.tibame.com/courselibrary/ai

下篇將與大家分享 網路爬蟲的9個工作流程?

每週4則,每日5分鐘, 提拔我園丁陪你快速添補AI/資料科學知識與技能。

若您想了解更多AI/資料科學的小知識、及各產業的相關應用,歡迎訂閱TibaMe FB及部落格,或你有其他想了解的主題歡迎在下方留言讓我們知道唷!

緯育TibaMe FB

企業人才數位轉型FB

企業AI、數位人才or平台培訓方案請點選

參考資料

分享這篇文章:
0 comment
4

您也許會喜歡

Leave a Comment

這個網站採用 Akismet 服務減少垃圾留言。進一步瞭解 Akismet 如何處理網站訪客的留言資料