Course Code: pysparkmlgsg
Duration: 21 hours
Prerequisites:

參與者應具備以下背景:

基本的Python編程知識,包括函數、數據結構和庫的使用
對數據分析概念(如數據集、轉換和聚合)的基本理解
SQL和關係數據概念的基礎知識
對機器學習概念(如訓練數據集、特徵和評估指標)的初步瞭解
熟悉命令行環境和基本軟件開發實踐者優先

有Pandas、NumPy或類似數據處理庫的經驗會有所幫助,但不是必需的。

Overview:

本培訓提供了一個實用的入門指南,介紹如何使用PySpark構建可擴展的數據處理和機器學習工作流。參與者將學習Apache Spark在現代大數據生態系統中的運作方式,以及如何利用分佈式計算原理高效處理大規模數據集。

課程從Spark架構和DataFrame操作逐步過渡到高級主題,如特徵工程、機器學習模型訓練以及使用Spark MLlib構建端到端機器學習管道。參與者還將探索性能優化技術、模型評估策略以及在企業環境中大規模部署機器學習工作流的最佳實踐。

通過實踐練習和現實場景的啓發,參與者將學習如何設計高效的數據管道,爲機器學習準備數據集,並構建能夠處理企業環境中常見大規模數據的分佈式機器學習模型。

培訓結束時,參與者將瞭解如何將PySpark集成到現代數據平臺中,並在生產環境中應用可擴展的機器學習技術。

Course Outline:

PySpark與機器學習 

模塊1:大數據與Spark基礎

  • 大數據生態系統概述及Spark在現代數據平臺中的作用
  • 理解Spark架構:驅動、執行器、集羣管理器、惰性求值、DAG和執行計劃
  • RDD與DataFrame API的區別及各自的使用場景
  • 創建和配置SparkSession,瞭解應用程序配置基礎

模塊2:PySpark DataFrames

  • 從企業數據源和格式(CSV、JSON、Parquet、Delta)中讀取和寫入數據
  • 使用PySpark DataFrames:轉換、操作、列表達式、過濾、連接和聚合
  • 實現高級操作,如窗口函數、處理時間戳和嵌套數據
  • 應用數據質量檢查,編寫可重用、可維護的PySpark代碼

模塊3:高效處理大規模數據集

  • 理解性能基礎:分區策略、Shuffle行爲、緩存和持久化
  • 使用優化技術,包括廣播連接和執行計劃分析
  • 高效處理大規模數據集及可擴展數據工作流的最佳實踐
  • 理解企業環境中的模式演化和現代存儲格式

模塊4:大規模特徵工程

  • 使用Spark MLlib進行特徵工程:處理缺失值、編碼分類變量和特徵縮放
  • 設計可重用的預處理步驟,爲機器學習管道準備數據集
  • 特徵選擇簡介及處理不平衡數據集

模塊5:使用Spark MLlib進行機器學習

  • 理解MLlib架構及Estimator/Transformer模式
  • 大規模訓練迴歸和分類模型(線性迴歸、邏輯迴歸、決策樹、隨機森林)
  • 在分佈式機器學習工作流中比較模型並解釋結果

模塊6:端到端機器學習管道

  • 構建端到端機器學習管道,結合預處理、特徵工程和建模
  • 應用訓練/驗證/測試集劃分策略
  • 使用網格搜索和隨機搜索進行交叉驗證和超參數調優
  • 構建可重複的機器學習實驗

模塊7:模型評估與實用機器學習決策

  • 爲迴歸和分類問題應用適當的評估指標
  • 識別過擬合和欠擬合,做出實用的模型選擇決策
  • 解釋特徵重要性,理解模型行爲

模塊8:生產與企業實踐

  • 在Spark中持久化和加載模型
  • 在大規模數據集上實現批量推理工作流
  • 理解企業環境中的機器學習生命週期
  • 版本控制、實驗跟蹤概念和基本測試策略簡介

 

實踐成果

  • 能夠獨立使用PySpark
  • 能夠高效處理大規模數據集
  • 能夠進行大規模特徵工程
  • 能夠構建可擴展的機器學習管道

Sites Published:

United Arab Emirates - PySpark and Machine Learning

Qatar - PySpark and Machine Learning

Egypt - PySpark and Machine Learning

Saudi Arabia - PySpark and Machine Learning

South Africa - PySpark and Machine Learning

Brasil - PySpark e Machine Learning

Canada - PySpark and Machine Learning

中国 - PySpark与机器学习

香港 - PySpark and Machine Learning

澳門 - PySpark and Machine Learning

台灣 - PySpark與機器學習

USA - PySpark and Machine Learning

Österreich - PySpark und Machine Learning

Schweiz - PySpark und Machine Learning

Deutschland - PySpark und Machine Learning

Czech Republic - PySpark a strojové učení

Denmark - PySpark and Machine Learning

Estonia - PySpark and Machine Learning

Finland - PySpark and Machine Learning

Greece - PySpark και Μηχανική Μάθησης

Magyarország - PySpark és gépi tanulás

Ireland - PySpark and Machine Learning

Luxembourg - PySpark and Machine Learning

Latvia - PySpark and Machine Learning

España - PySpark y Aprendizaje Automático

Italia - PySpark e Machine Learning

Lithuania - PySpark and Machine Learning

Nederland - PySpark en Machine Learning

Norway - PySpark og Maskinlæring

Portugal - PySpark e Machine Learning

România - PySpark și Machine Learning

Sverige - PySpark och Maskininlärning

Türkiye - PySpark ve Makine Öğrenimi

Malta - PySpark and Machine Learning

Belgique - PySpark et Machine Learning

France - PySpark et Machine Learning

日本 - PySpark と機械学習

Australia - PySpark and Machine Learning

Malaysia - PySpark and Machine Learning

New Zealand - PySpark and Machine Learning

Philippines - PySpark and Machine Learning

Singapore - PySpark and Machine Learning

Thailand - PySpark and Machine Learning

Vietnam - PySpark và Học máy

India - PySpark and Machine Learning

Argentina - PySpark y Aprendizaje Automático

Chile - PySpark y Aprendizaje Automático

Costa Rica - PySpark y Aprendizaje Automático

Ecuador - PySpark y Aprendizaje Automático

Guatemala - PySpark y Aprendizaje Automático

Colombia - PySpark y Aprendizaje Automático

México - PySpark y Aprendizaje Automático

Panama - PySpark y Aprendizaje Automático

Peru - PySpark y Aprendizaje Automático

Uruguay - PySpark y Aprendizaje Automático

Venezuela - PySpark y Aprendizaje Automático

Polska - PySpark i Uczenie Maszynowe

United Kingdom - PySpark and Machine Learning

South Korea - PySpark 및 머신러닝

Pakistan - PySpark and Machine Learning

Sri Lanka - PySpark and Machine Learning

Bulgaria - PySpark и машинно обучение

Bolivia - PySpark y Aprendizaje Automático

Indonesia - PySpark and Machine Learning

Kazakhstan - PySpark and Machine Learning

Moldova - PySpark și Machine Learning

Morocco - PySpark and Machine Learning

Tunisia - PySpark and Machine Learning

Kuwait - PySpark and Machine Learning

Oman - PySpark and Machine Learning

Slovakia - PySpark and Machine Learning

Kenya - PySpark and Machine Learning

Nigeria - PySpark and Machine Learning

Botswana - PySpark and Machine Learning

Slovenia - PySpark and Machine Learning

Croatia - PySpark and Machine Learning

Serbia - PySpark and Machine Learning

Bhutan - PySpark and Machine Learning

Nepal - PySpark and Machine Learning

Uzbekistan - PySpark and Machine Learning

US Government - PySpark and Machine Learning