Course Code: dsbda
Duration: 35 hours
Overview:

大数据是如此庞大和复杂的数据集,传统的数据处理应用软件不足以处理它们。大数据挑战包括捕获数据,数据存储,数据分析,搜索,共享,传输,可视化,查询,更新和信息隐私。

Course Outline:

Data Science for Big Data Analytics 简介

    Data Science 概述 大数据概述 数据结构 大数据的驱动因素和复杂性 大数据生态系统和新的分析方法 大数据中的关键技术 数据挖掘过程和问题 关联模式挖掘 数据聚类 异常值检测 数据分类

数据分析生命周期简介

    发现 数据准备 模型规划 模型构建 结果的介绍/Communication 操作化 练习:案例研究

从这一点 开始,大部分培训时间(80%)将花在R和相关大数据技术的示例和练习上。

R 入门

    安装 R 和 Rstudio R 语言的功能 R 中的对象 R 中的数据 数据操作 大数据问题 习题

开始使用 Hadoop

    安装 Hadoop 了解 Hadoop 模式 HDFS的 MapReduce架构 Hadoop 相关项目概览 用Hadoop MapReduce编写程序 习题

将 R 和 Hadoop 与 RHadoop 集成

    R的组成部分Hadoop 安装 RHadoop 并连接 Hadoop R的架构Hadoop Hadoop 使用 R 进行流式处理 使用 R 解决数据分析问题Hadoop 习题

预处理和准备数据

    数据准备步骤 特征提取 数据清理 数据集成和转换 数据缩减 – 采样、特征子集选择、 降维 离散化和分档 练习和案例研究

R 中的探索性数据分析方法

    描述统计学 探索性数据分析 可视化 – 初步步骤 可视化单个变量 检查多个变量 评估的统计方法 假设检验 练习和案例研究

Data Visualization秒

    R 中的基本可视化效果 用于数据可视化的软件包 ggplot2, lattice, plotly, lattice 在 R 中设置绘图格式 高级图形 习题

回归(估计未来值)

    线性回归 使用案例 型号说明 诊断 线性回归问题 收缩方法、脊回归、套索 泛化和非线性 回归样条曲线 局部多项式回归 广义加法模型 R回归Hadoop 练习和案例研究

分类

    分类相关问题 贝叶斯复习 朴素贝叶斯 逻辑回归 K 最近邻 决策树算法 神经网络 支持向量机 分类器诊断 分类方法比较 ScalaBLE分类算法 练习和案例研究

评估模型性能和选择

    偏差、方差和模型复杂性 准确性与可解释性 评估分类器 模型/算法性能的度量 保留验证方法 交叉验证 使用插入符号包调整机器学习算法 使用 Profit ROC 和 Lift 曲线可视化模型性能

集成方法

    装袋 Random Forest秒 提高 梯度提升 练习和案例研究

支持用于分类和回归的向量机

    最大边距分类器 支持向量分类器 支持向量机 用于分类问题的 SVM 用于回归问题的 SVM
  • 识别数据集中的未知分组
  • 聚类分析的特征选择 基于代表性的算法:k-means、k-medoids 分层算法:聚合和分裂方法 概率基础算法:EM 基于密度的算法:DBSCAN、DENCLUE 群集验证 高级聚类分析概念 使用R进行聚类Hadoop 练习和案例研究

      使用链接分析发现连接

    链路分析概念 用于分析网络的指标 Pagerank 算法 超链接引发的主题 Search 链路预测 练习和案例研究

      关联模式挖掘

    频繁模式挖掘模型 Scala频繁模式挖掘中的容量问题 蛮力算法 Apriori 算法 FP增长方法 候选规则评估 关联规则的应用 验证和测试 诊断 与 R 和 Hadoop 的关联规则 练习和案例研究

      构建推荐引擎

    了解推荐系统 推荐系统中使用的数据挖掘技术 带有 recommenderlab 软件包的推荐系统 评估推荐系统 RHadoop的建议 练习:构建推荐引擎

      文本分析

    文本分析步骤 收集原始文本 一袋字 术语频率 - 反向文档频率 确定情绪 练习和案例研究

    Sites Published:

    United Arab Emirates - Data Science for Big Data Analytics

    Qatar - Data Science for Big Data Analytics

    Egypt - Data Science for Big Data Analytics

    Saudi Arabia - Data Science for Big Data Analytics

    South Africa - Data Science for Big Data Analytics

    Brasil - Data Science for Big Data Analytics

    Canada - Data Science for Big Data Analytics

    中国 - Data Science for Big Data Analytics

    香港 - Data Science for Big Data Analytics

    澳門 - Data Science for Big Data Analytics

    台灣 - Data Science for Big Data Analytics

    USA - Data Science for Big Data Analytics

    Österreich - Data Science for Big Data Analytics

    Schweiz - Data Science for Big Data Analytics

    Deutschland - Data Science for Big Data Analytics

    Czech Republic - Data Science for Big Data Analytics

    Denmark - Data Science for Big Data Analytics

    Estonia - Data Science for Big Data Analytics

    Finland - Data Science for Big Data Analytics

    Greece - Data Science for Big Data Analytics

    Magyarország - Data Science for Big Data Analytics

    Ireland - Data Science for Big Data Analytics

    Luxembourg - Data Science for Big Data Analytics

    Latvia - Data Science for Big Data Analytics

    España - Ciencia de Datos para Big Data Analytics

    Italia - Data Science for Big Data Analytics

    Lithuania - Data Science for Big Data Analytics

    Nederland - Data Science for Big Data Analytics

    Norway - Data Science for Big Data Analytics

    Portugal - Data Science for Big Data Analytics

    România - Data Science for Big Data Analytics

    Sverige - Data Science for Big Data Analytics

    Türkiye - Data Science for Big Data Analytics

    Malta - Data Science for Big Data Analytics

    Belgique - Data Science for Big Data Analytics

    France - Data Science for Big Data Analytics

    日本 - Data Science for Big Data Analytics

    Australia - Data Science for Big Data Analytics

    Malaysia - Data Science for Big Data Analytics

    New Zealand - Data Science for Big Data Analytics

    Philippines - Data Science for Big Data Analytics

    Singapore - Data Science for Big Data Analytics

    Thailand - Data Science for Big Data Analytics

    Vietnam - Data Science for Big Data Analytics

    India - Data Science for Big Data Analytics

    Argentina - Ciencia de Datos para Big Data Analytics

    Chile - Ciencia de Datos para Big Data Analytics

    Costa Rica - Ciencia de Datos para Big Data Analytics

    Ecuador - Ciencia de Datos para Big Data Analytics

    Guatemala - Ciencia de Datos para Big Data Analytics

    Colombia - Ciencia de Datos para Big Data Analytics

    México - Ciencia de Datos para Big Data Analytics

    Panama - Ciencia de Datos para Big Data Analytics

    Peru - Ciencia de Datos para Big Data Analytics

    Uruguay - Ciencia de Datos para Big Data Analytics

    Venezuela - Ciencia de Datos para Big Data Analytics

    Polska - Data Science for Big Data Analytics

    United Kingdom - Data Science for Big Data Analytics

    South Korea - Data Science for Big Data Analytics

    Pakistan - Data Science for Big Data Analytics

    Sri Lanka - Data Science for Big Data Analytics

    Bulgaria - Data Science for Big Data Analytics

    Bolivia - Ciencia de Datos para Big Data Analytics

    Indonesia - Data Science for Big Data Analytics

    Kazakhstan - Data Science for Big Data Analytics

    Moldova - Data Science for Big Data Analytics

    Morocco - Data Science for Big Data Analytics

    Tunisia - Data Science for Big Data Analytics

    Kuwait - Data Science for Big Data Analytics

    Oman - Data Science for Big Data Analytics

    Slovakia - Data Science for Big Data Analytics

    Kenya - Data Science for Big Data Analytics

    Nigeria - Data Science for Big Data Analytics

    Botswana - Data Science for Big Data Analytics

    Slovenia - Data Science for Big Data Analytics

    Croatia - Data Science for Big Data Analytics

    Serbia - Data Science for Big Data Analytics

    Bhutan - Data Science for Big Data Analytics

    Nepal - Data Science for Big Data Analytics

    Uzbekistan - Data Science for Big Data Analytics