資料分析領域廣泛,大致可分為資料分析師、資料工程師、業務分析師、商務分析師四大領域。
- 資料分析師:透過excel、SQL收集數據,並進一步做資料統計、簡單報表製作。
- 資料工程師:很容易與資料分析師搞混,而資料工程師不同的是更重視的是資料技術,例如:統計基礎、資料庫操作、程式設計與機器學習基礎 。大致可分為一種是應用領域的挖掘工程師,另一種是著重在基礎建設的演算法工程師。
- 業務分析師:須具備基本的業務背景,做市場調查、銷售分析…等,可做為業務單位行銷策略的支持,發現問題-分析-並提供給業務部門。
- 商務分析師:不僅要熟悉業務外、也要熟悉作業流程及懂市場,包含一些金融管理背景,主要工作是進階針對市場、競爭對手、公司現況、產品建議、營收方向等,提出策略性的解決方案與建議。
以上提到的都是資料分析的一環,提到了這麼多相關職務,那資料分析到底需要哪些核心技能呢?
資料分析有9大技能需要學習和掌握
- 統計分析:基本統計、大數定律、抽樣推測規律、回歸、預測
- 視覺化輔助工具:Excel、BI工具、Python
- 大數據處理框架:Hadoop、Spark
- 資料庫:SQL、MySql、DB
- 資料倉儲:SSIS、SSAS
- 資料探勘工具:Matlab、R語言、Python
- 人工智慧(AI):機器學習、深度學習
- 資料探勘演算法:分類、分群、關聯
- 程式設計語言:R、Java、Python
一、統計分析
統計學是資料分析的基石,它是收集、處理、分析、解釋數據,從數據中得出結論的科學。讓數據分析的理論,可以更加系統化,做出更好的數據分析服務。
很多人喜歡用平均數去分析事物的結果,但這都是粗糙的分析。資料分析師要對統計學有基本了解、機器學習有所認識,由於消費者分析多與統計方法有關,像是平均數、中位數、顯著…等。
因此,統計學幫助我們用科學角度來看待資料,能夠更理解資料真相。它是資料分析中重要的關鍵知識,在業務面、技術面都需要重視資料分析工作,學習時,也應注重資料分析思維框架。
以下幾個知識,可以照著重點學習:
- 基本的統計量:均值、中位數、眾數、方差、標準差、百分位數…
- 總體和樣本:了解基本概念、抽樣概念
- 置信區間與假設檢驗:如何進行驗證分析
- 線性與回歸分析:一般資料分析的基本模型
【推薦學習】
更近一步學習,可以參考:
- 主流演算法的原理,
比如:線性回歸、邏輯回歸、決策樹、神經網路、關聯分析、聚類、協同過濾、隨機森林… - 文本分析、深度學習、圖像識別…相關的演算法。
二、資料視覺化輔助工具
資料分析師不只要熟悉將資料用Excelt以圖表方式呈現,還要掌握生成的圖表做系列格式設置。資料視覺化主要透過程式設計和非程式設計兩類工具來完成。
以下的輔助工具,如:
- Excel:可以進行各種資料處理、統計分析、輔助決策操作,它是常用的資料處理和展現工具。它自帶數據分析功能,可以完成部分專業統計軟體(R、SPSS、SAS、Matlab)的數據分析工作。
- BI工具:BI是通過收集資料來影響業務決策的做法,這幾年許多BI工具興起,像是:PowerBI、Qilkview都強調視覺化。
- Python:它在視覺化的工具中,有很多優秀的第三方庫,如:Matplotlib,Seaborn、Plotly、Boken、Pyecharts…等。
【推薦學習】
三、大數據處理框架
若你想成為大數據分析師,要了解大數據框架基礎。大數據處理框架負責對大數據系統中的資料進行計算,資料包括從持久存儲中讀取的資料或通過訊息佇列等方式接入到系統中的資料,而計算則是從資料中提取資訊的過程。
我們按照對所處理的資料形式和得到結果的時效性進行分類,分為批次處理系統、流處理系統和混合式系統。
- 批次處理系統:Apache Hadoop
- 流處理系統:Apache Storm、Apache Samza
- 混合處理系統:Apache Spark,Apache Flink
【推薦學習】
四、資料庫
資料分析有分等級,有負責清洗資料、簡單的工作;有負責建模、掌握十多個機器學習演算法;但要做到頂尖的分析就需要掌握各個演算法的本質,也就是「資料庫的基礎」。
SQL 是從數據庫檢索訊息的編程語言,在資料庫中是核心技術。SQL的基礎重要,是因為數據大多是從數據庫提取出來。資料分析學習時,務必要重視這些內容,不只可以提取所需要的數據,且能提升工作效率。目前主要以互聯網行業的通用標準—MySQL 為主。
- 常使用的資料庫:MySQL、SQL Server 、 Oracle。
- 查詢語言工具:SQL、Hive、Pig
Hive 跟 SQL 的差異?
* Hive:基於Hadoop的數據倉儲工具,
將結構化資料映射為資料庫表,提供完整的SQL查詢功能,
但缺少更新和刪除功能。
可以先熟練SQL,Hive就可以更好上手。
【推薦學習】
五、資料倉儲
資料倉儲是把不同來源的大量數據組合到一個地方,進行分析的過程。公司常常有來自不同地方的資訊,資料倉儲讓他們聚集在同一處。它是一個具有主題、內建、穩定、反應歷史變化的資料集合。
而在資料分析中,最重要的是資料處理工作。從專家做資料分析的經驗,資料處理的時間佔據資料分析流程的70%,而資料倉儲的內建、穩定、高品質特點,可以更加保證資料品質、及完整性。
六、資料探勘工具
在做資料分析時,資料探勘軟體是其中必不可少的工具之一。它是大多數商業智慧計畫中的核心應用程式,資料採擷軟體同樣也能夠從大量資料中提取洞察力。需要學習的語言:MATLAB、Python、R。
- MATLAB:偏學術性、但好上手,可以跑演算法。
- Python 和 R:目前這兩個語言較常被使用,建議先學Python、再學習 R。
【推薦學習】
七、AI人工智慧
其實嚴格來說,人工智慧跟資料分析有明顯的界線,並不是同一領域,但這是以資料分析科學家角色來定義。
機器學習、人工智慧的知識層面太廣,建議採取問題導向的學習方式,先設定好問題、找到資源解決問題、深入了解問題,這樣在面對問題時,可以減少遇到的名詞、盲點知識。
【推薦學習】
- 【AI基礎思維1】認識AI與資料科學
- 【AI基礎思維2】掌握AI關鍵核心技術-機器學習及深度學習
- 【AI基礎思維3】用AI看見未來-電腦視覺應用
- 【AI基礎思維4】AI有話說-文字與訊號處理
- 【AI基礎思維5】AI無所不在-活用AI產業應用
八、資料探勘演算法
很多人以為資料採擷需要掌握複雜的演算法,要有技術開發,才能做好資料探勘分析。
但其實演算法不難,需要結合實際業務場景、以解決問題為導向,主要包含:分類演算法、分群演算法、關聯規則三大類。這是學習資料探勘必須要掌握的演算法基礎,這三類基本上涵蓋目前商業市場對演算法的所有需求。
【推薦學習】
九、程式設計語言
比如:Python、R語言、Java…等,但資料分析要使用哪種語言呢?
- Python:可以跨GPU進行NLP或密集的神經網絡處理
- R:對統計運算進行資料分析工作
- Java:加固、面向生產環境的資料流程解決方案,重要操作工具
只會程式語言遠遠不足,還需要修改資料採擷語言的套裝程式或模型,現有的套裝程式或模型有侷限,在資料處理上不夠自由。但自己寫代碼程式設計,可以根據個人需求進行編寫,實現更多客製化需求。
【推薦學習】
以上是「資料分析」需要具備的9大技能,再針對各個技能做更深入的闡述,希望有幫到想精進資料分析能力的你。
結帳輸入優惠碼「BLOGONLY200」,上述線上課程任選現折$200!
緯育TibaMe已經有10萬人次來學習AI/資料科學知識或技術,若你想進一步了解或學習 AI / 資料科學的相關知識或技能,歡迎來TibaMe 👉 https://bit.ly/3o4N39e
下篇開始將為大家整理及說明 什麼是資料蒐集?
每週4則,每日5分鐘, 提拔我園丁陪你快速添補AI/資料科學知識與技能。
若你想了解更多AI/資料科學的小知識、及各產業的相關應用,歡迎訂閱TibaMe FB及部落格,或你有其他想了解的主題歡迎在下方留言讓我們知道唷!
參考資料