Course Code:
bigdata
Prerequisites:
- 对数学有大体的了解
- 对编程有大体的了解
- 对数据库有大体的了解
Overview:
完成本课程的学员将对大数据及其相关技术、方法、工具有一个深入的了解。
学员将有机会通过练习和测试将新学到的知识付诸实践。小组互动和讲师反馈是课堂的重要组成部分。
本课程首先介绍大数据的基本概念,然后讲解用于执行数据分析的编程语言和方法,最后,我们会讨论可启用大数据存储、分布式处理及可扩展性的工具。
受众
- 开发人员/程序员
- IT顾问
课程形式
- 部分讲座、部分讨论、动手实践
Course Outline:
第01天
数据分析和大数据概念 - 简要回顾
- 速度(Velocity)、体量(Volume)、种类(Variety)、准确度(Veracity)(VVVV)的定义
- 对传统数据处理能力的限制
- 分布式处理
- 统计分析
- 机器学习分析类型
- 数据可视化
- 分布式处理(例如:map-reduce)
用于数据分析的语言
- R语言(中级到高级)
第02天
用于数据分析的语言
- Python(速成课程)
第03天
数据分析的方法
- 统计分析
- 时间序列分析
- 用相关和回归模型预测
- 推论统计(估算)
- 大数据集中的描述性统计(例如:计算平均数)
第04天
数据分析的方法
- 机器学习
- 有监督与无监督学习
- 分类和聚类
- 估算具体方法的成本
- 过滤
第05天
数据分析的方法
- 自然语言处理
- 处理文本
- 理解文本的含义
- 自动生成文本
- 情感/主题分析
- 计算机视觉
第06天
大数据工具
- 数据存储解决方案(SQL、NoSQL、分层、面向对象、面向文档)
- MySQL、Cassandra、MongoDB、Elasticsearch、HDFS等
- 为问题选择正确的解决方案
第07天
大数据工具
- 分布式处理
- Spark
- 用Spark的机器学习(MLLib)
- Spark SQL
第08天
大数据工具
- 可扩展性
- 公有云(AWS、Google等)
- 私有云(OpenStack、Cloud Foundry)
- 自动可扩展性
结束语