大數據是如此龐大和復雜的數據集,傳統的數據處理應用軟件不足以處理它們。大數據挑戰包括捕獲數據,數據存儲,數據分析,搜索,共享,傳輸,可視化,查詢,更新和信息隱私。
Data Science for Big Data Analytics 簡介
-
Data Science 概述
大數據概述
數據結構
大數據的驅動因素和複雜性
大數據生態系統和新的分析方法
大數據中的關鍵技術
數據挖掘過程和問題
關聯模式挖掘
數據聚類
異常值檢測
數據分類
數據分析生命周期簡介
-
發現
數據準備
模型規劃
模型構建
結果的介紹/Communication
操作化
練習:案例研究
從這一點 開始,大部分培訓時間(80%)將花在R和相關大數據技術的示例和練習上。
R 入門
-
安裝 R 和 Rstudio
R 語言的功能
R 中的物件
R 中的數據
數據操作
大數據問題
習題
開始使用 Hadoop
-
安裝 Hadoop
瞭解 Hadoop 模式
HDFS的
MapReduce架構
Hadoop 相關專案概覽
用Hadoop MapReduce編寫程式
習題
將 R 和 Hadoop 與 RHadoop 集成
-
R的組成部分Hadoop
安裝 RHadoop 並連接 Hadoop
R的架構Hadoop
Hadoop 使用 R 進行流式處理
使用 R 解決資料分析問題Hadoop
習題
預處理和準備數據
-
數據準備步驟
特徵提取
數據清理
數據集成和轉換
數據縮減 – 採樣、特徵子集選擇、
降維
離散化和分檔
練習和案例研究
R 中的探索性數據分析方法
-
描述統計學
探索性數據分析
可視化 – 初步步驟
可視化單個變數
檢查多個變數
評估的統計方法
假設檢驗
練習和案例研究
Data Visualization秒
-
R 中的基本可視化效果
用於數據可視化的軟體包 ggplot2, lattice, plotly, lattice
在 R 中設定繪圖格式
高級圖形
習題
回歸(估計未來值)
-
線性回歸
使用案例
型號說明
診斷
線性回歸問題
收縮方法、脊回歸、套索
泛化和非線性
回歸樣條曲線
局部多項式回歸
廣義加法模型
R回歸Hadoop
練習和案例研究
分類
-
分類相關問題
貝葉斯複習
樸素貝葉斯
邏輯回歸
K 最近鄰
決策樹演算法
神經網路
支援向量機
分類器診斷
分類方法比較
ScalaBLE分類演算法
練習和案例研究
評估模型性能和選擇
-
偏差、方差和模型複雜性
準確性與可解釋性
評估分類器
模型/演算法性能的度量
保留驗證方法
交叉驗證
使用插入符號包調整機器學習演算法
使用 Profit ROC 和 Lift 曲線可視化模型性能
集成方法
-
裝袋
Random Forest秒
提高
梯度提升
練習和案例研究
支援用於分類和回歸的向量機
-
最大邊距分類器
支援向量分類器
支援向量機
用於分類問題的 SVM
用於回歸問題的 SVM
聚類分析的特徵選擇 基於代表性的演算法:k-means、k-medoids 分層演算法:聚合和分裂方法 概率基礎演算法:EM 基於密度的演算法:DBSCAN、DENCLUE 群集驗證 高級聚類分析概念 使用R進行聚類Hadoop 練習和案例研究
-
使用連結分析發現連接
鏈路分析概念 用於分析網路的指標 Pagerank 演算法 超鏈接引發的主題 Search 鏈路預測 練習和案例研究
-
關聯模式挖掘
頻繁模式挖掘模型 Scala頻繁模式挖掘中的容量問題 蠻力演算法 Apriori 演算法 FP增長方法 候選規則評估 關聯規則的應用 驗證和測試 診斷 與 R 和 Hadoop 的關聯規則 練習和案例研究
-
構建推薦引擎
瞭解推薦系統 推薦系統中使用的數據挖掘技術 帶有 recommenderlab 軟體包的推薦系統 評估推薦系統 RHadoop的建議 練習:構建推薦引擎
-
文本分析
文本分析步驟 收集原始文字 一袋字 術語頻率 - 反向文檔頻率 確定情緒 練習和案例研究
United Arab Emirates - Data Science for Big Data Analytics
Qatar - Data Science for Big Data Analytics
Egypt - Data Science for Big Data Analytics
Saudi Arabia - Data Science for Big Data Analytics
South Africa - Data Science for Big Data Analytics
Brasil - Data Science for Big Data Analytics
Canada - Data Science for Big Data Analytics
中国 - Data Science for Big Data Analytics
香港 - Data Science for Big Data Analytics
澳門 - Data Science for Big Data Analytics
台灣 - Data Science for Big Data Analytics
USA - Data Science for Big Data Analytics
Österreich - Data Science for Big Data Analytics
Schweiz - Data Science for Big Data Analytics
Deutschland - Data Science for Big Data Analytics
Czech Republic - Data Science for Big Data Analytics
Denmark - Data Science for Big Data Analytics
Estonia - Data Science for Big Data Analytics
Finland - Data Science for Big Data Analytics
Greece - Data Science for Big Data Analytics
Magyarország - Data Science for Big Data Analytics
Ireland - Data Science for Big Data Analytics
Luxembourg - Data Science for Big Data Analytics
Latvia - Data Science for Big Data Analytics
España - Ciencia de Datos para Big Data Analytics
Italia - Data Science for Big Data Analytics
Lithuania - Data Science for Big Data Analytics
Nederland - Data Science for Big Data Analytics
Norway - Data Science for Big Data Analytics
Portugal - Data Science for Big Data Analytics
România - Data Science for Big Data Analytics
Sverige - Data Science for Big Data Analytics
Türkiye - Data Science for Big Data Analytics
Malta - Data Science for Big Data Analytics
Belgique - Data Science for Big Data Analytics
France - Data Science for Big Data Analytics
日本 - Data Science for Big Data Analytics
Australia - Data Science for Big Data Analytics
Malaysia - Data Science for Big Data Analytics
New Zealand - Data Science for Big Data Analytics
Philippines - Data Science for Big Data Analytics
Singapore - Data Science for Big Data Analytics
Thailand - Data Science for Big Data Analytics
Vietnam - Data Science for Big Data Analytics
India - Data Science for Big Data Analytics
Argentina - Ciencia de Datos para Big Data Analytics
Chile - Ciencia de Datos para Big Data Analytics
Costa Rica - Ciencia de Datos para Big Data Analytics
Ecuador - Ciencia de Datos para Big Data Analytics
Guatemala - Ciencia de Datos para Big Data Analytics
Colombia - Ciencia de Datos para Big Data Analytics
México - Ciencia de Datos para Big Data Analytics
Panama - Ciencia de Datos para Big Data Analytics
Peru - Ciencia de Datos para Big Data Analytics
Uruguay - Ciencia de Datos para Big Data Analytics
Venezuela - Ciencia de Datos para Big Data Analytics
Polska - Data Science for Big Data Analytics
United Kingdom - Data Science for Big Data Analytics
South Korea - Data Science for Big Data Analytics
Pakistan - Data Science for Big Data Analytics
Sri Lanka - Data Science for Big Data Analytics
Bulgaria - Data Science for Big Data Analytics
Bolivia - Ciencia de Datos para Big Data Analytics
Indonesia - Data Science for Big Data Analytics
Kazakhstan - Data Science for Big Data Analytics
Moldova - Data Science for Big Data Analytics
Morocco - Data Science for Big Data Analytics
Tunisia - Data Science for Big Data Analytics
Kuwait - Data Science for Big Data Analytics
Oman - Data Science for Big Data Analytics
Slovakia - Data Science for Big Data Analytics
Kenya - Data Science for Big Data Analytics
Nigeria - Data Science for Big Data Analytics
Botswana - Data Science for Big Data Analytics
Slovenia - Data Science for Big Data Analytics
Croatia - Data Science for Big Data Analytics
Serbia - Data Science for Big Data Analytics
Bhutan - Data Science for Big Data Analytics