資料科學/人工智慧的工作流程第二階段主要工作為「資料前處理」(如圖18-1),根據資料顯示,「資料前處理」佔資料科學工作流程60%的時間,在Q16有稍微提及「資料前處理」,它是對從資料庫中取出的資料集,進行「資料清理」,處理資料中包含雜訊、錯誤訊息,或是想使用多個資料集也會進行「資料整合」。
一般來說,許多真實的資料來源都很多元,我們不能保證每個來源都收到最高品質的資料。現在多數資料品質會有不完整、雜訊、格式不一致…等問題,而只有高品質的資料,才能訓練精準模型,同時把握資料品質與模型的準確度。
「資料前整理」它包含資料清理 (Data Cleaning)、資料整合 (Data Integration)、資料轉換 (Data Transformation) 這三種不同類型的工作。
提拔我園丁
資料分析領域廣泛,大致可分為資料分析師、資料工程師、業務分析師、商務分析師四大領域。但你知道他們需要的技能有哪些嗎?資料分析有9大技能需要學習和掌握
統計分析:基本統計、大數定律、抽樣推測規律、回歸、預測
視覺化輔助工具:excel、BI工具、python
大數據處理框架:Hadoop、spark
資料庫:SQL、MySql、DB
資料倉儲:SSIS、SSAS
資料探勘工具:Matlab、R語言、python
人工智慧(AI):機器學習、深度學習
資料探勘演算法:分類、分群、關聯
程式設計語言:R、Java、pythonTIOBE是最具代表性的程式語言的社群,每月皆會更新一次程式語言排行榜。根據今年2021年1月TIOBE發布的熱門程式語言排行榜中,C語言至2020年5月取代JAVA後至今仍是冠軍,成長了1.61%,而第二名的JAVA占比11.96%,但以總體局勢來看是稍有下滑趨勢下降4.93%,而Python與2020年相比則穩居第三名。
TIOBE每年選出年度熱門獎,評分標準來自各界的工程師、課程和第三方供應商,以及搜尋引擎的搜尋數據ex: Google、Bing、維基百科等。 由表中可看出Java、Python、R是資料分析程式語言受歡迎的前三名。在NVIDIA網站有關人工智慧(AI)、機器學習和深度學習有什麼區別的文章,非常清楚的說明此問題的觀點,本文節錄該文主體來分享給大家 。
人工智慧是未來科技發展的趨勢。人工智慧是科幻的恣意想像。人工智慧早就存在於我們的日常生活。這些說法都對,端視你指的是人工智慧的哪個特點。
舉例來說,Google DeepMind 的 AlphaGo 項目今年初擊敗韓國圍棋棋王李世乭時,媒體使用「人工智慧」、「機器學習」與「深度學習」這幾個名詞來描述 DeepMind 的致勝方式,這三者雖皆是 AlphaGo 擊敗李世乭的原因,卻並非指同⼀件事情,其中各有巧妙不同,用同心圓最能簡單說明三者間的關係。