Course Code: pysparkmlgsg
Duration: 21 hours
Prerequisites:
参与者应具备以下背景:
基本的Python编程知识,包括函数、数据结构和库的使用
对数据分析概念(如数据集、转换和聚合)的基本理解
SQL和关系数据概念的基础知识
对机器学习概念(如训练数据集、特征和评估指标)的初步了解
熟悉命令行环境和基本软件开发实践者优先
有Pandas、NumPy或类似数据处理库的经验会有所帮助,但不是必需的。
Overview:
本培训提供了一个实用的入门指南,介绍如何使用PySpark构建可扩展的数据处理和机器学习工作流。参与者将学习Apache Spark在现代大数据生态系统中的运作方式,以及如何利用分布式计算原理高效处理大规模数据集。
课程从Spark架构和DataFrame操作逐步过渡到高级主题,如特征工程、机器学习模型训练以及使用Spark MLlib构建端到端机器学习管道。参与者还将探索性能优化技术、模型评估策略以及在企业环境中大规模部署机器学习工作流的最佳实践。
通过实践练习和现实场景的启发,参与者将学习如何设计高效的数据管道,为机器学习准备数据集,并构建能够处理企业环境中常见大规模数据的分布式机器学习模型。
培训结束时,参与者将了解如何将PySpark集成到现代数据平台中,并在生产环境中应用可扩展的机器学习技术。
Course Outline:
PySpark与机器学习
模块1:大数据与Spark基础
- 大数据生态系统概述及Spark在现代数据平台中的作用
- 理解Spark架构:驱动、执行器、集群管理器、惰性求值、DAG和执行计划
- RDD与DataFrame API的区别及各自的使用场景
- 创建和配置SparkSession,了解应用程序配置基础
模块2:PySpark DataFrames
- 从企业数据源和格式(CSV、JSON、Parquet、Delta)中读取和写入数据
- 使用PySpark DataFrames:转换、操作、列表达式、过滤、连接和聚合
- 实现高级操作,如窗口函数、处理时间戳和嵌套数据
- 应用数据质量检查,编写可重用、可维护的PySpark代码
模块3:高效处理大规模数据集
- 理解性能基础:分区策略、Shuffle行为、缓存和持久化
- 使用优化技术,包括广播连接和执行计划分析
- 高效处理大规模数据集及可扩展数据工作流的最佳实践
- 理解企业环境中的模式演化和现代存储格式
模块4:大规模特征工程
- 使用Spark MLlib进行特征工程:处理缺失值、编码分类变量和特征缩放
- 设计可重用的预处理步骤,为机器学习管道准备数据集
- 特征选择简介及处理不平衡数据集
模块5:使用Spark MLlib进行机器学习
- 理解MLlib架构及Estimator/Transformer模式
- 大规模训练回归和分类模型(线性回归、逻辑回归、决策树、随机森林)
- 在分布式机器学习工作流中比较模型并解释结果
模块6:端到端机器学习管道
- 构建端到端机器学习管道,结合预处理、特征工程和建模
- 应用训练/验证/测试集划分策略
- 使用网格搜索和随机搜索进行交叉验证和超参数调优
- 构建可重复的机器学习实验
模块7:模型评估与实用机器学习决策
- 为回归和分类问题应用适当的评估指标
- 识别过拟合和欠拟合,做出实用的模型选择决策
- 解释特征重要性,理解模型行为
模块8:生产与企业实践
- 在Spark中持久化和加载模型
- 在大规模数据集上实现批量推理工作流
- 理解企业环境中的机器学习生命周期
- 版本控制、实验跟踪概念和基本测试策略简介
实践成果
- 能够独立使用PySpark
- 能够高效处理大规模数据集
- 能够进行大规模特征工程
- 能够构建可扩展的机器学习管道
United Arab Emirates - PySpark and Machine Learning
Qatar - PySpark and Machine Learning
Egypt - PySpark and Machine Learning
Saudi Arabia - PySpark and Machine Learning
South Africa - PySpark and Machine Learning
Brasil - PySpark e Machine Learning
Canada - PySpark and Machine Learning
香港 - PySpark and Machine Learning
澳門 - PySpark and Machine Learning
USA - PySpark and Machine Learning
Österreich - PySpark und Machine Learning
Schweiz - PySpark und Machine Learning
Deutschland - PySpark und Machine Learning
Czech Republic - PySpark a strojové učení
Denmark - PySpark and Machine Learning
Estonia - PySpark and Machine Learning
Finland - PySpark and Machine Learning
Greece - PySpark και Μηχανική Μάθησης
Magyarország - PySpark és gépi tanulás
Ireland - PySpark and Machine Learning
Luxembourg - PySpark and Machine Learning
Latvia - PySpark and Machine Learning
España - PySpark y Aprendizaje Automático
Italia - PySpark e Machine Learning
Lithuania - PySpark and Machine Learning
Nederland - PySpark en Machine Learning
Norway - PySpark og Maskinlæring
Portugal - PySpark e Machine Learning
România - PySpark și Machine Learning
Sverige - PySpark och Maskininlärning
Türkiye - PySpark ve Makine Öğrenimi
Malta - PySpark and Machine Learning
Belgique - PySpark et Machine Learning
France - PySpark et Machine Learning
Australia - PySpark and Machine Learning
Malaysia - PySpark and Machine Learning
New Zealand - PySpark and Machine Learning
Philippines - PySpark and Machine Learning
Singapore - PySpark and Machine Learning
Thailand - PySpark and Machine Learning
India - PySpark and Machine Learning
Argentina - PySpark y Aprendizaje Automático
Chile - PySpark y Aprendizaje Automático
Costa Rica - PySpark y Aprendizaje Automático
Ecuador - PySpark y Aprendizaje Automático
Guatemala - PySpark y Aprendizaje Automático
Colombia - PySpark y Aprendizaje Automático
México - PySpark y Aprendizaje Automático
Panama - PySpark y Aprendizaje Automático
Peru - PySpark y Aprendizaje Automático
Uruguay - PySpark y Aprendizaje Automático
Venezuela - PySpark y Aprendizaje Automático
Polska - PySpark i Uczenie Maszynowe
United Kingdom - PySpark and Machine Learning
Pakistan - PySpark and Machine Learning
Sri Lanka - PySpark and Machine Learning
Bulgaria - PySpark и машинно обучение
Bolivia - PySpark y Aprendizaje Automático
Indonesia - PySpark and Machine Learning
Kazakhstan - PySpark and Machine Learning
Moldova - PySpark și Machine Learning
Morocco - PySpark and Machine Learning
Tunisia - PySpark and Machine Learning
Kuwait - PySpark and Machine Learning
Oman - PySpark and Machine Learning
Slovakia - PySpark and Machine Learning
Kenya - PySpark and Machine Learning
Nigeria - PySpark and Machine Learning
Botswana - PySpark and Machine Learning
Slovenia - PySpark and Machine Learning
Croatia - PySpark and Machine Learning
Serbia - PySpark and Machine Learning
Bhutan - PySpark and Machine Learning
Nepal - PySpark and Machine Learning