【AI60問】Q19如何區分資料倉儲與資料湖泊?

by 提拔我園丁
緯育TibaMe AI小教室-Q19如何區分資料倉儲與資料湖?

資料科學/人工智慧的第三階段主要工作流程為資料儲存 (如圖19-1) ,在資料分析需要的資料儲存是由資料倉儲或資料湖所建構起來。

Q16 提及,在資料儲存的階段,資料分析師需要了解資料儲存內部的工作流程,最核心的因素是在原始資料基礎上經過哪些加工處理,最後得到哪些資料。

由於資料在儲存階段是不斷變化和更新,它的即時性、完整性、一制性、準確性,都可能因為軟硬體或是環境問題而影響後期的應用。

圖19-1 資料科學 /人工智慧主要工作流程

以下將簡單介紹,「資料倉儲」、「資料湖泊」這兩種資料儲存類型。  

資料倉儲的定義

「資料倉儲」是資訊的中央儲存庫,它包含多個資料庫,專門為資料分析所設計,用於執行查詢、分析。在每個資料庫中,資料能被整理成資料表和資料欄。也可以從各欄中,定義資料的描述,如:整數、資料欄位、字串。

資料通常會定期從交易處理系統、關聯式資料庫、其他來源流入資料倉儲。而資料科學家、資料工程師、商業分析師都可以透過BI、SQL用戶端、其他分析應用程式,來存取資料。這些資料經過分析後,可以幫助我們做出更好的決策。因此,資料倉儲較常用於深入商業分析的資料庫。

資料湖泊的定義

資料湖泊」是指儲存所有結構化、半結構化和非結構化資料的大量資料來源。

資料倉儲會以表格來整理資料,讓結構描述能夠發揮用處,也因為需要表格才能使用SQL查詢資料。但是,並不是所有應用程式都要資料採用表格格式。如:大數據分析、全文搜尋、機器學習,即使資料是「半結構化」或非結構化也可以存取 (如圖19-2)。

現在,我們能使用以下幾點特性,分出這兩種資料儲存類型的差異。

資料倉儲與資料湖的比較

圖19-2 資料倉儲與資料湖泊比較

資料倉儲或資料湖,都是由多個資料庫彙整而成,而基本的資料庫又分成結構化資料庫、非結構化資料庫。

*結構化資料:
如已經整理好的資料表格,可以做數據分析。先有結構,才有資料。

*半結構化資料:
如CSV、JSON與XML,方便於資料交換,其特性同時具備欄位概念與欄位可拓展性,
半結構化資料除了可以透過欄位來查詢資料,且能根據使用者需求來調整欄位。

*非結構化資料庫:
是未經整理過的資料,也就是資料的本質。
如文字、圖片、音樂、影片、PDF、網頁...等,都是非結構化資料。

資料庫管理系統(Database Management System,DBMS)是為了管理資料庫而設計的軟體系統,具有儲存、擷取、安全保障、備份…等基礎功能。

資料庫管理系統可以依據以下幾種方式分類:

  • 資料庫模型:關聯式、XML
  • 所支援的電腦類型:伺服器群集、手機
  • 所用查詢語言:SQL、XQuery
  • 效能衝量重點:最大規模、最高執行速度

從資料庫技術與其他學科技術的結合,創造很多種新型資料庫,如:與分布處理技術結合產生的分散式資料庫、與並列處理技術結合產生的並列資料庫、與AI 結合產生的演繹資料庫、與多媒體技術結合產生的多媒體資料庫。

常用的資料庫

1、關聯式資料庫

專門用來管理、查詢關聯式資料庫(Relational database)的程式語言,通常用來儲存「結構化資料」,幾乎所有的資料庫管理系統都配備一個開放式資料庫連接(ODBC)驅動程式,讓每個資料庫間能互相整合。

具有以下特質:

  • 資料以一個或多個資料表 (table) 的方式存放
  • 資料間有明確關聯
  • 以 SQL 語言操作,我們能在關聯式資料庫裡新增、查詢、更新和刪除資料,也能建立和修改資料庫模式。
    SQL的語法簡單,且都以資料為主角去思考。

關聯式資料庫

如:MySQL、Microsoft SQL Server、 Oracle資料庫

【推薦學習】

2、非關聯式資料庫 (NoSQL)

NoSQL就是”Not Only SQL”,也就是不限定「關聯式資料庫」的資料庫管理系統。

NoSQL 不支持SQL語法、邏輯,所以通常不使用關聯模型,也不需要固定結構。但有需要時, NoSQL 也可以使用關聯模型、資料表及欄位設計。

它將聚集的資料,做儲存的最小單位,比起資料關聯,NoSQL 更關注資料所代表的人與物的「狀態」變動。像是:使用者與平台文章,是否有被按讚、分享…等。

非關聯式資料庫

  • 如:BigTable(Google)、MongoDB、 CouchDB 、 Redis

【推薦學習】

3、鍵值資料庫

也是一種非關聯式資料庫,是使用簡單的鍵值方法存放資料。

鍵值式資料庫

  • 如:Apache Cassandra 、 Amazon DynamoDB 、 LevelDB (Google)、

緯育TibaMe已經有10萬人次來學習AI/資料科學知識或技術,若你想進一步了解或學習 AI / 資料科學的相關知識或技能,歡迎來TibaMe 👉 https://bit.ly/3o4N39e

下篇將與大家分享資料探勘6大主要功能與應用?

每週4則,每日5分鐘, 提拔我園丁陪你快速添補AI/資料科學知識與技能。

若您想了解更多AI/資料科學的小知識、及各產業的相關應用,歡迎訂閱TibaMe FB及部落格,或你有其他想了解的主題歡迎在下方留言讓我們知道唷!

緯育TibaMe FB

企業人才數位轉型FB

企業AI、數位人才or平台培訓方案請點選

參考資料

分享這篇文章:
0 comment
4

您也許會喜歡

Leave a Comment

這個網站採用 Akismet 服務減少垃圾留言。進一步瞭解 Akismet 如何處理網站訪客的留言資料