Course Code: bigdata
Prerequisites:
  • 對數學有大體的了解
  • 對編程有大體的了解
  • 對數據庫有大體的了解
Overview:

完成本課程的學員將對大數據及其相關技術、方法、工具有一個深入的了解。

學員將有機會通過練習和測試將新學到的知識付諸實踐。小組互動和講師反饋是課堂的重要組成部分。

本課程首先介紹大數據的基本概念,然後講解用于執行數據分析的編程語言和方法,最後,我們會討論可啓用大數據存儲、分布式處理及可擴展性的工具。

受衆

  • 開發人員/程序員
  • IT顧問

課程形式

  • 部分講座、部分討論、動手實踐
Course Outline:

第01天

數據分析和大數據概念 - 簡要回顧

  1. 速度(Velocity)、體量(Volume)、種類(Variety)、准確度(Veracity)(VVVV)的定義
  2. 對傳統數據處理能力的限制
  3. 分布式處理
  4. 統計分析
  5. 機器學習分析類型
  6. 數據可視化
  7. 分布式處理(例如:map-reduce)

用于數據分析的語言

  • R語言(中級到高級)
     

第02天

用于數據分析的語言

  • Python(速成課程)
     

第03天

數據分析的方法

  1. 統計分析
    1. 時間序列分析
    2. 用相關和回歸模型預測
    3. 推論統計(估算)
    4. 大數據集中的描述性統計(例如:計算平均數)
       

第04天

數據分析的方法

  1. 機器學習
    1. 有監督與無監督學習
    2. 分類和聚類
    3. 估算具體方法的成本
    4. 過濾
       

第05天

數據分析的方法

  1. 自然語言處理
    1. 處理文本
    2. 理解文本的含義
    3. 自動生成文本
    4. 情感/主題分析
  2. 計算機視覺
     

第06天

大數據工具

  1. 數據存儲解決方案(SQL、NoSQL、分層、面向對象、面向文檔)
    1. MySQL、Cassandra、MongoDB、Elasticsearch、HDFS等
    2. 爲問題選擇正確的解決方案
       

第07天

大數據工具

  1. 分布式處理
    1. Spark
    2. 用Spark的機器學習(MLLib)
    3. Spark SQL
       

第08天

大數據工具

  1. 可擴展性
    1. 公有雲(AWS、Google等)
    2. 私有雲(OpenStack、Cloud Foundry)
    3. 自動可擴展性

結束語