Course Code:
bigdata
Prerequisites:
- 對數學有大體的了解
- 對編程有大體的了解
- 對數據庫有大體的了解
Overview:
完成本課程的學員將對大數據及其相關技術、方法、工具有一個深入的了解。
學員將有機會通過練習和測試將新學到的知識付諸實踐。小組互動和講師反饋是課堂的重要組成部分。
本課程首先介紹大數據的基本概念,然後講解用于執行數據分析的編程語言和方法,最後,我們會討論可啓用大數據存儲、分布式處理及可擴展性的工具。
受衆
- 開發人員/程序員
- IT顧問
課程形式
- 部分講座、部分討論、動手實踐
Course Outline:
第01天
數據分析和大數據概念 - 簡要回顧
- 速度(Velocity)、體量(Volume)、種類(Variety)、准確度(Veracity)(VVVV)的定義
- 對傳統數據處理能力的限制
- 分布式處理
- 統計分析
- 機器學習分析類型
- 數據可視化
- 分布式處理(例如:map-reduce)
用于數據分析的語言
- R語言(中級到高級)
第02天
用于數據分析的語言
- Python(速成課程)
第03天
數據分析的方法
- 統計分析
- 時間序列分析
- 用相關和回歸模型預測
- 推論統計(估算)
- 大數據集中的描述性統計(例如:計算平均數)
第04天
數據分析的方法
- 機器學習
- 有監督與無監督學習
- 分類和聚類
- 估算具體方法的成本
- 過濾
第05天
數據分析的方法
- 自然語言處理
- 處理文本
- 理解文本的含義
- 自動生成文本
- 情感/主題分析
- 計算機視覺
第06天
大數據工具
- 數據存儲解決方案(SQL、NoSQL、分層、面向對象、面向文檔)
- MySQL、Cassandra、MongoDB、Elasticsearch、HDFS等
- 爲問題選擇正確的解決方案
第07天
大數據工具
- 分布式處理
- Spark
- 用Spark的機器學習(MLLib)
- Spark SQL
第08天
大數據工具
- 可擴展性
- 公有雲(AWS、Google等)
- 私有雲(OpenStack、Cloud Foundry)
- 自動可擴展性
結束語