Course Code: pysparkmlgsg
Duration: 21 hours
Prerequisites:

参与者应具备以下背景:

基本的Python编程知识,包括函数、数据结构和库的使用
对数据分析概念(如数据集、转换和聚合)的基本理解
SQL和关系数据概念的基础知识
对机器学习概念(如训练数据集、特征和评估指标)的初步了解
熟悉命令行环境和基本软件开发实践者优先

有Pandas、NumPy或类似数据处理库的经验会有所帮助,但不是必需的。

Overview:

本培训提供了一个实用的入门指南,介绍如何使用PySpark构建可扩展的数据处理和机器学习工作流。参与者将学习Apache Spark在现代大数据生态系统中的运作方式,以及如何利用分布式计算原理高效处理大规模数据集。

课程从Spark架构和DataFrame操作逐步过渡到高级主题,如特征工程、机器学习模型训练以及使用Spark MLlib构建端到端机器学习管道。参与者还将探索性能优化技术、模型评估策略以及在企业环境中大规模部署机器学习工作流的最佳实践。

通过实践练习和现实场景的启发,参与者将学习如何设计高效的数据管道,为机器学习准备数据集,并构建能够处理企业环境中常见大规模数据的分布式机器学习模型。

培训结束时,参与者将了解如何将PySpark集成到现代数据平台中,并在生产环境中应用可扩展的机器学习技术。

Course Outline:

PySpark与机器学习 

模块1:大数据与Spark基础

  • 大数据生态系统概述及Spark在现代数据平台中的作用
  • 理解Spark架构:驱动、执行器、集群管理器、惰性求值、DAG和执行计划
  • RDD与DataFrame API的区别及各自的使用场景
  • 创建和配置SparkSession,了解应用程序配置基础

模块2:PySpark DataFrames

  • 从企业数据源和格式(CSV、JSON、Parquet、Delta)中读取和写入数据
  • 使用PySpark DataFrames:转换、操作、列表达式、过滤、连接和聚合
  • 实现高级操作,如窗口函数、处理时间戳和嵌套数据
  • 应用数据质量检查,编写可重用、可维护的PySpark代码

模块3:高效处理大规模数据集

  • 理解性能基础:分区策略、Shuffle行为、缓存和持久化
  • 使用优化技术,包括广播连接和执行计划分析
  • 高效处理大规模数据集及可扩展数据工作流的最佳实践
  • 理解企业环境中的模式演化和现代存储格式

模块4:大规模特征工程

  • 使用Spark MLlib进行特征工程:处理缺失值、编码分类变量和特征缩放
  • 设计可重用的预处理步骤,为机器学习管道准备数据集
  • 特征选择简介及处理不平衡数据集

模块5:使用Spark MLlib进行机器学习

  • 理解MLlib架构及Estimator/Transformer模式
  • 大规模训练回归和分类模型(线性回归、逻辑回归、决策树、随机森林)
  • 在分布式机器学习工作流中比较模型并解释结果

模块6:端到端机器学习管道

  • 构建端到端机器学习管道,结合预处理、特征工程和建模
  • 应用训练/验证/测试集划分策略
  • 使用网格搜索和随机搜索进行交叉验证和超参数调优
  • 构建可重复的机器学习实验

模块7:模型评估与实用机器学习决策

  • 为回归和分类问题应用适当的评估指标
  • 识别过拟合和欠拟合,做出实用的模型选择决策
  • 解释特征重要性,理解模型行为

模块8:生产与企业实践

  • 在Spark中持久化和加载模型
  • 在大规模数据集上实现批量推理工作流
  • 理解企业环境中的机器学习生命周期
  • 版本控制、实验跟踪概念和基本测试策略简介

 

实践成果

  • 能够独立使用PySpark
  • 能够高效处理大规模数据集
  • 能够进行大规模特征工程
  • 能够构建可扩展的机器学习管道

Sites Published:

United Arab Emirates - PySpark and Machine Learning

Qatar - PySpark and Machine Learning

Egypt - PySpark and Machine Learning

Saudi Arabia - PySpark and Machine Learning

South Africa - PySpark and Machine Learning

Brasil - PySpark e Machine Learning

Canada - PySpark and Machine Learning

中国 - PySpark与机器学习

香港 - PySpark and Machine Learning

澳門 - PySpark and Machine Learning

台灣 - PySpark與機器學習

USA - PySpark and Machine Learning

Österreich - PySpark und Machine Learning

Schweiz - PySpark und Machine Learning

Deutschland - PySpark und Machine Learning

Czech Republic - PySpark a strojové učení

Denmark - PySpark and Machine Learning

Estonia - PySpark and Machine Learning

Finland - PySpark and Machine Learning

Greece - PySpark και Μηχανική Μάθησης

Magyarország - PySpark és gépi tanulás

Ireland - PySpark and Machine Learning

Luxembourg - PySpark and Machine Learning

Latvia - PySpark and Machine Learning

España - PySpark y Aprendizaje Automático

Italia - PySpark e Machine Learning

Lithuania - PySpark and Machine Learning

Nederland - PySpark en Machine Learning

Norway - PySpark og Maskinlæring

Portugal - PySpark e Machine Learning

România - PySpark și Machine Learning

Sverige - PySpark och Maskininlärning

Türkiye - PySpark ve Makine Öğrenimi

Malta - PySpark and Machine Learning

Belgique - PySpark et Machine Learning

France - PySpark et Machine Learning

日本 - PySpark と機械学習

Australia - PySpark and Machine Learning

Malaysia - PySpark and Machine Learning

New Zealand - PySpark and Machine Learning

Philippines - PySpark and Machine Learning

Singapore - PySpark and Machine Learning

Thailand - PySpark and Machine Learning

Vietnam - PySpark và Học máy

India - PySpark and Machine Learning

Argentina - PySpark y Aprendizaje Automático

Chile - PySpark y Aprendizaje Automático

Costa Rica - PySpark y Aprendizaje Automático

Ecuador - PySpark y Aprendizaje Automático

Guatemala - PySpark y Aprendizaje Automático

Colombia - PySpark y Aprendizaje Automático

México - PySpark y Aprendizaje Automático

Panama - PySpark y Aprendizaje Automático

Peru - PySpark y Aprendizaje Automático

Uruguay - PySpark y Aprendizaje Automático

Venezuela - PySpark y Aprendizaje Automático

Polska - PySpark i Uczenie Maszynowe

United Kingdom - PySpark and Machine Learning

South Korea - PySpark 및 머신러닝

Pakistan - PySpark and Machine Learning

Sri Lanka - PySpark and Machine Learning

Bulgaria - PySpark и машинно обучение

Bolivia - PySpark y Aprendizaje Automático

Indonesia - PySpark and Machine Learning

Kazakhstan - PySpark and Machine Learning

Moldova - PySpark și Machine Learning

Morocco - PySpark and Machine Learning

Tunisia - PySpark and Machine Learning

Kuwait - PySpark and Machine Learning

Oman - PySpark and Machine Learning

Slovakia - PySpark and Machine Learning

Kenya - PySpark and Machine Learning

Nigeria - PySpark and Machine Learning

Botswana - PySpark and Machine Learning

Slovenia - PySpark and Machine Learning

Croatia - PySpark and Machine Learning

Serbia - PySpark and Machine Learning

Bhutan - PySpark and Machine Learning

Nepal - PySpark and Machine Learning

Uzbekistan - PySpark and Machine Learning

US Government - PySpark and Machine Learning