【AI60問】Q7 什麼是大數據?

by 提拔我園丁
緯育TibaMe AI小教室-Q7什麼是大數據?

從西元2000年開始,天文學、海洋學、生物工程、電腦科學,到智慧型手機的流行,科學家發現,仰賴於科技的進步(感測器、智慧型手機),資料取得成本相比過去開始大幅地下降,過去十多年搜集的資料,今朝⼀夕之間即能達成。

因爲取得數據不再是科學研究最大的困難,如何「儲存」、「挖掘」海量數據,並成功地「溝通」分析結果,成爲新的瓶頸與研究重點。所謂「大數據」指的就是資料的規模巨大,以致無法透過傳統方式在⼀定時間內進行儲存、運算與分析。所以無論哪種產業想透過大數據分析、預測未來趨勢,都使大數據成為各行業目前在發展的數位技術。

大數據也可以定義為來自各種來源的大量非結構化或結構化數據,大數據的興起使資料探勘、統計領域成為熱門科目。它不只是資料處理工具,更是⼀種企業思維和商業模式,因爲資料量急速成長、儲存設備成本下降、軟體技術進化和雲端環境成熟等種種客觀條件就位,能讓資料分析從過去的洞悉歷史進化到預測未來,甚至是破舊立新,開創從所未見的商業模式。

大數據的5V是什麼呢

比起大數據,「數據」人人都熟悉,比如銀行的轉帳紀錄、消費者在網頁的瀏覽紀錄,
又或者我們在購物網站的消費紀錄,任何資料都可被稱為數據,
而大數據就是這些資料的增量版。

大數據還有以下幾種特性,統稱為5V:

Volume 大,資料量

若以量化表示,大數據指在一天內可生成1TB以上資料量的數據,相對於128個8G隨身碟。也因為資料量大,無法使用傳統方式儲存處理,因此衍生出大數據這個新興科學。

Variety 雜,資料多樣性

大數據的資料類型太多,像是Facebook上的帳戶紀錄,包含照片、文字、超連結…等多種數據形式。由於形式多元複雜,因此大數據儲存也需要不同於傳統數據的儲存技術。

Velocity 快,資料即時性

大數據生成速度較快。在網路興起與資訊設備普及的時代,以用戶突破20億人的Facebook為例,若每個用戶每天按一個「讚」,就會有20億筆資料。每個人隨時隨地都可以創造數據,數據生成的速度不是過去可相比。

Veracity 真,資料真實性

除了資料量,也需要確認真實性,將造假的數據與異常值過濾後,分析出來的結果才能達到準確預測的目的。

Value 價值

包含大量深度的價值,大數據分析探勘、利用大數據推動商業價值。

大數據分析:數據統計與資料探勘

數據統計

數據處理的第一步是「獲得再儲存」,發展期間會碰到的第一個問題是資料生成太多又太快,需要開發新的儲存方式,來處理資料。

若能夠成功儲存大量資料,只是簡單的描述統計,也能夠了解數據者的特徵。職業數據網站Comparably從數據面分析Google、Facebook、微軟、Apple、亞馬遜五家科技公司的面試難度,發現多數Google的員工覺得面試過程很困難,但是到微軟面試工程職位時,僅管穿著T恤、牛仔褲也可以被接受。可以從數據中發現各家公司的差異,應徵者也可以在面試前就做好相對應的心理準備。

資料探勘

大數據無法使用過去人工方式統計與分析,即使能達成也需要耗費大量時間。因此在處理大數據時經常使用人工智慧、機器學習等技術,讓機器協助人類在短時間內分析巨量資料,這整理資料並找出其中規律的過程被稱為資料探勘。

資料探勘技術可以追蹤分析看似不相關的數據,應用在偵查、取得線索等領域上,甚至是追查犯罪者、預測犯罪地點。矽谷的大數據公司Palantir就以獨特的資料探勘技術,協助美國軍方找到蓋達組織首領賓拉登,也多次為企業與警方提供金融犯罪的線索。

大數據的分析步驟

Step 1:取得

若企業有大量使用者,那收集使用者的活動紀錄可達到以「數據預測未來」的目標;
小型企業,可以透過主動邀請使用者填寫問卷,來累積資訊量。

Step 2:儲存

資料數龐大,是突破儲存技術式處理大數據的首要難關。
所以處理大數據多要使用分散式處理系統,透過分割資料、備份、儲存,
突破記憶體過小的障礙。

Step 3:運算

若想達成「預測未來」,需要透過分類、迴歸分析、排序、關聯分析等方式,
找出其中規律,並運用決策術、遺傳演算法、人工神經網路等模型進行計算。

Step 4:視覺化

由於分析後的數據仍然是數字跟列表,不太容易閱讀。
因此可以搭配「視覺化工具」,將數據轉為可閱讀與理解方式。

緯育TibaMe已經有10萬人次來學習AI/資料科學知識或技術,若你想進一步了解或學習 AI / 資料科學的相關知識或技能,歡迎來TibaMe 👉 https://www.tibame.com/eventpage/ai_datascientist 

AI資料科學家-三階段全方位學程班
AI資料科學家-三階段全方位學程班

下篇開始將為大家整理及說明商業智慧與大數據的差別

每週4則,每日5分鐘, 提拔我園丁陪你快速添補AI/資料科學知識與技能。

若你想了解更多AI/資料科學的小知識、及各產業的相關應用,歡迎訂閱TibaMe FB及部落格,或你有其他想了解的主題歡迎在下方留言讓我們知道唷!

緯育TibaMe FB

企業人才數位轉型FB

參考資料

  1. 大數據是什麼?從零開始,認識大數據定義、分析與工具
  2. 維基百科—巨量資料
分享這篇文章:
0 留言
3

您也許會喜歡

發佈留言

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料