Course Code: bigdata
Prerequisites:
  • 对数学有大体的了解
  • 对编程有大体的了解
  • 对数据库有大体的了解
Overview:

完成本课程的学员将对大数据及其相关技术、方法、工具有一个深入的了解。

学员将有机会通过练习和测试将新学到的知识付诸实践。小组互动和讲师反馈是课堂的重要组成部分。

本课程首先介绍大数据的基本概念,然后讲解用于执行数据分析的编程语言和方法,最后,我们会讨论可启用大数据存储、分布式处理及可扩展性的工具。

受众

  • 开发人员/程序员
  • IT顾问

课程形式

  • 部分讲座、部分讨论、动手实践
Course Outline:

第01天

数据分析和大数据概念 - 简要回顾

  1. 速度(Velocity)、体量(Volume)、种类(Variety)、准确度(Veracity)(VVVV)的定义
  2. 对传统数据处理能力的限制
  3. 分布式处理
  4. 统计分析
  5. 机器学习分析类型
  6. 数据可视化
  7. 分布式处理(例如:map-reduce)

用于数据分析的语言

  • R语言(中级到高级)
     

第02天

用于数据分析的语言

  • Python(速成课程)
     

第03天

数据分析的方法

  1. 统计分析
    1. 时间序列分析
    2. 用相关和回归模型预测
    3. 推论统计(估算)
    4. 大数据集中的描述性统计(例如:计算平均数)
       

第04天

数据分析的方法

  1. 机器学习
    1. 有监督与无监督学习
    2. 分类和聚类
    3. 估算具体方法的成本
    4. 过滤
       

第05天

数据分析的方法

  1. 自然语言处理
    1. 处理文本
    2. 理解文本的含义
    3. 自动生成文本
    4. 情感/主题分析
  2. 计算机视觉
     

第06天

大数据工具

  1. 数据存储解决方案(SQL、NoSQL、分层、面向对象、面向文档)
    1. MySQL、Cassandra、MongoDB、Elasticsearch、HDFS等
    2. 为问题选择正确的解决方案
       

第07天

大数据工具

  1. 分布式处理
    1. Spark
    2. 用Spark的机器学习(MLLib)
    3. Spark SQL
       

第08天

大数据工具

  1. 可扩展性
    1. 公有云(AWS、Google等)
    2. 私有云(OpenStack、Cloud Foundry)
    3. 自动可扩展性

结束语