資料科學(data science),簡單說就是透過「資料」提取有用「知識」的技能和技術。
它包含多種領域中的理論,如:數學、統計、資料探勘、圖型識別、機器學習、深度學習、資料視覺化、資料倉儲、資料模型以及高效能計算 (圖5-1) 。
運用各種資料幫助非該領域的人士來理解對應問題,讓我們知道如何正確處理資料,並針對政府、生物學、社會科學…等領域,進行相關研究。同時,資料科學也對企業在商業競爭有極大的助力。
我們可以把資料科學的進行過程歸納成:透過對領域知識 (Domain Knowledge) 的理解,並將相關的商業問題,透過資料探勘或人工智慧的技術分析,並且運用資料工程 (Data Engineering) 來導入現有或正在開發的系統。
如下面6個步驟 (圖5-2):
1. 了解業務 (Business Understanding)
首先我們要了解企業業務是怎麼運作的,除了企業本身的知識之外,也有許多組織內自己獨有的制度或流程,都是要在這個過程中理解。
2. 了解資料 (Data Understanding)
接下來要了解資料,了解資料可以分成兩個部分。
第一、了解現在正在搜集的資料有哪些?
像有那些客戶資料、賣了那些商品、庫存、出貨頻率、退貨…等等紀錄。
第二、了解現在正搜集的資料有什麼現象?
像客戶訂貨一季之後就沒有續訂了,但不知道是什麼原因,想知道商品怎麼樣更好賣…等。
3. 資料準備 (Data Preparation)
接下來我們開始將有紀錄的資料清理及轉成資料分析可用的正確格式資料。
例如:客戶在不同檔案的性別格式不同,需要有個工具自動或手動校正。或檔案中有遺漏的資料,譬如忘記寫價格,我們要補上或者是視為遺漏資料。
4. 建模 (Modeling)
找一個適合的模型,讓我們的系統在接受了前面準備的資料之後,可以回答你想提出的問題。
5. 評估 (Evaluation)
現在模型建立出來了,我們需要做幾項評估。
- 是不是只是樣本過適或取樣誤差:
我們只搜集了部分的資料,於是沒有可分析的對象資料。
- 是不是真的有解決想要解決的問題
- 在解決問題的同時,會造成什麼樣的效果。
在這個階段,這些問題都應該要盡可能地被識別出來,以用來評估是否要開始應用。
6. 部署 (Deployment)
我們設計好一套新的系統,首先要跟舊有的部分結合。
例如:讓原來系統在輸入客戶資料的同時就直接導入新的資料流程。並且在下次客戶準備要續約的時候主動發訊息詢問。
接下來,我們也會因為這一連串的過程中,發現原本沒有注意到的商業問題或機會,接下來在部署後也可以開始下一輪的迭代。
緯育TibaMe已經有10萬人次來學習AI/資料科學知識或技術,若你想進一步了解或學習 AI / 資料科學的相關知識或技能,歡迎來TibaMe 👉https://www.tibame.com/eventpage/ai_datascientist
下篇開始將為大家說明什麼是商務智慧。
每週4則,每日5分鐘, 提拔我園丁陪你快速添補AI/資料科學知識與技能。
若你想了解更多AI/資料科學的小知識、及各產業的相關應用,歡迎訂閱TibaMe FB及部落格,或你有其他想了解的主題歡迎在下方留言讓我們知道唷!
資料來源參考
參考資料