2.5K
介紹:
Spark學程包含了解Spark核心基礎與環境建置、學習Scala語言以掌握Spark精髓。從資料收集開始,實做Streaming串流分析,將web log資料以realtime (micro batch)方式收進HDFS儲存,以Spark SQL對Streaming收入的log資料做結構化處理,以及使用Spark內建機器學習套件完成推薦模型。這學程無疑是讓你輕鬆進入大數據分析領域的敲門磚。
OnO學習介紹:
目前推動OnO學習模式,您需先上完線上課程,再來參加實作課程,用意在於
=>實作課程主要是在教導學員,如何運用Spark技術來處理大數據問題,讓學員了解Spark的處理流程與架構
=>線上課程在講解Spark的相關知識,舉凡安裝,scala程式等等的基礎知識
線上課程內容:
課程名稱 | 課程內容介紹 |
Spark 安裝簡介與原理 (77 min) |
Spark基於記憶體運算,相較於Hadoop上的MapReduce效能快上許多,課程中會介紹Spark整體架構設計原理以及如何建置Spark環境;最後,當然不會錯過Spark中最基礎也是最重要的資料結構-RDD,我們將一起學習什麼是RDD,以及又該如何最有效率地操作RDD。 |
Spark 核心語言Scala (66 min) |
Scala作為Spark的原生語言,了解Scala一些基本語法,有助於理解Spark的操作。在這個課程中我們將介紹Scala一些特點,包括OO及FP的實現以及Scala的編譯器-SBT。 |
用Spark Streaming讀取即時資料 (40 min) |
Spark Streaming是Spark延伸的API,具備可擴展,高吞吐及容錯的流式處理架構。在這堂課,將會學到Streaming架構,DStream的操作,以及與Kafka的整合。 |
Spark SQL處理半結構化資料 (75 min) |
利用Spark SQL與各式資料串連,不論是HDFS、本機系統或是Hadoop Hive資料表,透過取得資料、資料前處理、利用SQL語言與DataFrame的優點,製作商業智慧報表,甚至了解Spark SQL效能調整的功能設定,讓你輕鬆掌握Spark SQL的精髓! |
Spark MLlib完成資料挖掘與機器學習 (88 min) |
本課程內容涵蓋機器學習、資料處理,以及資料分析。將透過深入淺出的方式了解機器學習原理,使用Spark MLlib分析真實資料,學習之後能立即應用於日常工作上。 |
線下實作課程:
主題:網路日誌實時流分析實戰教學
OnO課程價格:原價NT$7395,優惠價6200(期限至12/25)->點我報名
課程講師:
講師 | 介紹 |
楊立偉 Bryan Yang | 現職為大數據資料工程師,曾任職電信業及外商顧問公司。現活躍於Spark台灣社群,致力於推廣Spark技術與商業應用整合。 |
李俐慧 Li-Hui Li | 曾任醫院臨床試驗統計分析師、電子商務資料採礦分析師、行銷顧問資料工程師,現活躍於Spark台灣社群,致力於推廣Spark技術與商業應用整合。 |
楊擇中 Mark Yang | 統計本科畢業,畢業後誤入程式叢林,熱愛軟體架構設計及數據分析。現任手機資料分析工程師,為HadoopCon2015的講者,目前常出沒於Spark台灣社群,致力於推廣Spark技術與Scala。 |
備註:皆活躍於Spark台灣社群,致力於推廣Spark技術與商業應用整合。
時間:1/10->點我報名
地點:台北商業技術大學