Course Code: pysparkmlgsg
Duration: 21 hours
Prerequisites:
參與者應具備以下背景:
基本的Python編程知識,包括函數、數據結構和庫的使用
對數據分析概念(如數據集、轉換和聚合)的基本理解
SQL和關係數據概念的基礎知識
對機器學習概念(如訓練數據集、特徵和評估指標)的初步瞭解
熟悉命令行環境和基本軟件開發實踐者優先
有Pandas、NumPy或類似數據處理庫的經驗會有所幫助,但不是必需的。
Overview:
本培訓提供了一個實用的入門指南,介紹如何使用PySpark構建可擴展的數據處理和機器學習工作流。參與者將學習Apache Spark在現代大數據生態系統中的運作方式,以及如何利用分佈式計算原理高效處理大規模數據集。
課程從Spark架構和DataFrame操作逐步過渡到高級主題,如特徵工程、機器學習模型訓練以及使用Spark MLlib構建端到端機器學習管道。參與者還將探索性能優化技術、模型評估策略以及在企業環境中大規模部署機器學習工作流的最佳實踐。
通過實踐練習和現實場景的啓發,參與者將學習如何設計高效的數據管道,爲機器學習準備數據集,並構建能夠處理企業環境中常見大規模數據的分佈式機器學習模型。
培訓結束時,參與者將瞭解如何將PySpark集成到現代數據平臺中,並在生產環境中應用可擴展的機器學習技術。
Course Outline:
PySpark與機器學習
模塊1:大數據與Spark基礎
- 大數據生態系統概述及Spark在現代數據平臺中的作用
- 理解Spark架構:驅動、執行器、集羣管理器、惰性求值、DAG和執行計劃
- RDD與DataFrame API的區別及各自的使用場景
- 創建和配置SparkSession,瞭解應用程序配置基礎
模塊2:PySpark DataFrames
- 從企業數據源和格式(CSV、JSON、Parquet、Delta)中讀取和寫入數據
- 使用PySpark DataFrames:轉換、操作、列表達式、過濾、連接和聚合
- 實現高級操作,如窗口函數、處理時間戳和嵌套數據
- 應用數據質量檢查,編寫可重用、可維護的PySpark代碼
模塊3:高效處理大規模數據集
- 理解性能基礎:分區策略、Shuffle行爲、緩存和持久化
- 使用優化技術,包括廣播連接和執行計劃分析
- 高效處理大規模數據集及可擴展數據工作流的最佳實踐
- 理解企業環境中的模式演化和現代存儲格式
模塊4:大規模特徵工程
- 使用Spark MLlib進行特徵工程:處理缺失值、編碼分類變量和特徵縮放
- 設計可重用的預處理步驟,爲機器學習管道準備數據集
- 特徵選擇簡介及處理不平衡數據集
模塊5:使用Spark MLlib進行機器學習
- 理解MLlib架構及Estimator/Transformer模式
- 大規模訓練迴歸和分類模型(線性迴歸、邏輯迴歸、決策樹、隨機森林)
- 在分佈式機器學習工作流中比較模型並解釋結果
模塊6:端到端機器學習管道
- 構建端到端機器學習管道,結合預處理、特徵工程和建模
- 應用訓練/驗證/測試集劃分策略
- 使用網格搜索和隨機搜索進行交叉驗證和超參數調優
- 構建可重複的機器學習實驗
模塊7:模型評估與實用機器學習決策
- 爲迴歸和分類問題應用適當的評估指標
- 識別過擬合和欠擬合,做出實用的模型選擇決策
- 解釋特徵重要性,理解模型行爲
模塊8:生產與企業實踐
- 在Spark中持久化和加載模型
- 在大規模數據集上實現批量推理工作流
- 理解企業環境中的機器學習生命週期
- 版本控制、實驗跟蹤概念和基本測試策略簡介
實踐成果
- 能夠獨立使用PySpark
- 能夠高效處理大規模數據集
- 能夠進行大規模特徵工程
- 能夠構建可擴展的機器學習管道
United Arab Emirates - PySpark and Machine Learning
Qatar - PySpark and Machine Learning
Egypt - PySpark and Machine Learning
Saudi Arabia - PySpark and Machine Learning
South Africa - PySpark and Machine Learning
Brasil - PySpark e Machine Learning
Canada - PySpark and Machine Learning
香港 - PySpark and Machine Learning
澳門 - PySpark and Machine Learning
USA - PySpark and Machine Learning
Österreich - PySpark und Machine Learning
Schweiz - PySpark und Machine Learning
Deutschland - PySpark und Machine Learning
Czech Republic - PySpark a strojové učení
Denmark - PySpark and Machine Learning
Estonia - PySpark and Machine Learning
Finland - PySpark and Machine Learning
Greece - PySpark και Μηχανική Μάθησης
Magyarország - PySpark és gépi tanulás
Ireland - PySpark and Machine Learning
Luxembourg - PySpark and Machine Learning
Latvia - PySpark and Machine Learning
España - PySpark y Aprendizaje Automático
Italia - PySpark e Machine Learning
Lithuania - PySpark and Machine Learning
Nederland - PySpark en Machine Learning
Norway - PySpark og Maskinlæring
Portugal - PySpark e Machine Learning
România - PySpark și Machine Learning
Sverige - PySpark och Maskininlärning
Türkiye - PySpark ve Makine Öğrenimi
Malta - PySpark and Machine Learning
Belgique - PySpark et Machine Learning
France - PySpark et Machine Learning
Australia - PySpark and Machine Learning
Malaysia - PySpark and Machine Learning
New Zealand - PySpark and Machine Learning
Philippines - PySpark and Machine Learning
Singapore - PySpark and Machine Learning
Thailand - PySpark and Machine Learning
India - PySpark and Machine Learning
Argentina - PySpark y Aprendizaje Automático
Chile - PySpark y Aprendizaje Automático
Costa Rica - PySpark y Aprendizaje Automático
Ecuador - PySpark y Aprendizaje Automático
Guatemala - PySpark y Aprendizaje Automático
Colombia - PySpark y Aprendizaje Automático
México - PySpark y Aprendizaje Automático
Panama - PySpark y Aprendizaje Automático
Peru - PySpark y Aprendizaje Automático
Uruguay - PySpark y Aprendizaje Automático
Venezuela - PySpark y Aprendizaje Automático
Polska - PySpark i Uczenie Maszynowe
United Kingdom - PySpark and Machine Learning
Pakistan - PySpark and Machine Learning
Sri Lanka - PySpark and Machine Learning
Bulgaria - PySpark и машинно обучение
Bolivia - PySpark y Aprendizaje Automático
Indonesia - PySpark and Machine Learning
Kazakhstan - PySpark and Machine Learning
Moldova - PySpark și Machine Learning
Morocco - PySpark and Machine Learning
Tunisia - PySpark and Machine Learning
Kuwait - PySpark and Machine Learning
Oman - PySpark and Machine Learning
Slovakia - PySpark and Machine Learning
Kenya - PySpark and Machine Learning
Nigeria - PySpark and Machine Learning
Botswana - PySpark and Machine Learning
Slovenia - PySpark and Machine Learning
Croatia - PySpark and Machine Learning
Serbia - PySpark and Machine Learning
Bhutan - PySpark and Machine Learning
Nepal - PySpark and Machine Learning