Course Code: sparkpython
Duration: 21 hours
Prerequisites:
  • 一般程式設計技能

觀眾

  • 開發人員
  • IT 專業人員
  • 數據科學家
Overview:

Python 是一種高級程式設計語言,以其清晰的語法和代碼可讀性而聞名。Spark 是一個數據處理引擎,用於查詢、分析和轉換大數據。PySpark 允許使用者將 Spark 與 Python 連接。

在這個由講師指導的現場培訓中,參與者將學習如何在進行動手練習時一起使用 Python 和Spark來分析大數據。

在培訓結束時,參與者將能夠:

  • 瞭解如何將Spark與 Python 結合使用來分析 Big Data。
  • 進行模仿真實世界案例的練習。
  • 使用 PySpark 使用不同的工具和技術進行大數據分析。

課程形式

  • 部分講座,部分討論,練習和大量的實踐練習
Course Outline:

介紹

瞭解 Big Data

Spark概述

Python概述

PySpark概述

  • 使用彈性分散式數據集框架分發數據
  • 使用 Spark API Operators 分發計算

使用 Spark 設定 Python

設定PySpark

將 Amazon Web Services (AWS) EC2 實例用於Spark

設定Databricks

設置 AWS EMR 集群

學習基礎知識 Python Programming

  • 開始使用 Python
  • 使用 Jupyter Notebook
  • 使用變數和簡單數據類型
  • 使用清單
  • 使用 if 語句
  • 使用用戶輸入
  • 使用 while 迴圈
  • 實現函數
  • 使用類
  • 處理文件和異常
  • 使用專案、數據和 API

瞭解 Spark DataFrame 的基礎知識

  • Spark DataFrames 入門
  • 使用Spark實現基本操作
  • 使用 Groupby 和 Aggregate 操作
  • 使用時間戳和日期

處理Spark DataFrame項目練習

使用 MLlib 瞭解 Machine Learning

使用 MLlib、Spark 和 Python 獲取 Machine Learning

了解回歸

  • 學習線性回歸理論
  • 實現回歸評估代碼
  • 處理樣本線性回歸練習
  • 學習邏輯回歸理論
  • 實現邏輯回歸代碼
  • 進行示例邏輯回歸練習

瞭解 Random Forest 和決策樹

  • 學習樹方法理論
  • 實現決策樹和 Random Forest 代碼
  • 處理樣本 Random Forest 分類練習

使用 K-means 聚類

  • 理解 K 均值聚類理論
  • 實現 K-means 聚類代碼
  • 處理樣本聚類分析練習

使用推薦系統

實現自然語言處理

  • 理解 Natural Language Processing (NLP)
  • NLP工具概述
  • 處理範例 NLP 練習

在 Python 上使用Spark進行流式處理

  • 概述:使用Spark進行流式處理
  • 樣本 Spark Streaming 運動

結束語

Sites Published:

United Arab Emirates - Python and Spark for Big Data (PySpark)

Qatar - Python and Spark for Big Data (PySpark)

Egypt - Python and Spark for Big Data (PySpark)

Saudi Arabia - Python and Spark for Big Data (PySpark)

South Africa - Python and Spark for Big Data (PySpark)

Brasil - Python e Spark para Big Data (PySpark)

Canada - Python and Spark for Big Data (PySpark)

中国 - 用Spark和Python通过PySpark处理大数据

香港 - Python and Spark for Big Data (PySpark)

澳門 - Python and Spark for Big Data (PySpark)

台灣 - Python and Spark for Big Data (PySpark)

USA - Python and Spark for Big Data (PySpark)

Österreich - Python and Spark for Big Data (PySpark)

Schweiz - Python and Spark for Big Data (PySpark)

Deutschland - Python and Spark for Big Data (PySpark)

Czech Republic - Python and Spark for Big Data (PySpark)

Denmark - Python and Spark for Big Data (PySpark)

Estonia - Python and Spark for Big Data (PySpark)

Finland - Python and Spark for Big Data (PySpark)

Greece - Python and Spark for Big Data (PySpark)

Magyarország - Python and Spark for Big Data (PySpark)

Ireland - Python and Spark for Big Data (PySpark)

Luxembourg - Python and Spark for Big Data (PySpark)

Latvia - Python and Spark for Big Data (PySpark)

España - Python y Spark para Big Data (PySpark)

Italia - Python and Spark for Big Data (PySpark)

Lithuania - Python and Spark for Big Data (PySpark)

Nederland - Python and Spark for Big Data (PySpark)

Norway - Python and Spark for Big Data (PySpark)

Portugal - Python e Spark para Big Data (PySpark)

România - Python and Spark for Big Data (PySpark)

Sverige - Python and Spark for Big Data (PySpark)

Türkiye - Python and Spark for Big Data (PySpark)

Malta - Python and Spark for Big Data (PySpark)

Belgique - Python and Spark for Big Data (PySpark)

France - Python and Spark for Big Data (PySpark)

日本 - Python and Spark for Big Data (PySpark)

Australia - Python and Spark for Big Data (PySpark)

Malaysia - Python and Spark for Big Data (PySpark)

New Zealand - Python and Spark for Big Data (PySpark)

Philippines - Python and Spark for Big Data (PySpark)

Singapore - Python and Spark for Big Data (PySpark)

Thailand - Python and Spark for Big Data (PySpark)

Vietnam - Python and Spark for Big Data (PySpark)

India - Python and Spark for Big Data (PySpark)

Argentina - Python y Spark para Big Data (PySpark)

Chile - Python y Spark para Big Data (PySpark)

Costa Rica - Python y Spark para Big Data (PySpark)

Ecuador - Python y Spark para Big Data (PySpark)

Guatemala - Python y Spark para Big Data (PySpark)

Colombia - Python y Spark para Big Data (PySpark)

México - Python y Spark para Big Data (PySpark)

Panama - Python y Spark para Big Data (PySpark)

Peru - Python y Spark para Big Data (PySpark)

Uruguay - Python y Spark para Big Data (PySpark)

Venezuela - Python y Spark para Big Data (PySpark)

Polska - Python and Spark for Big Data (PySpark)

United Kingdom - Python and Spark for Big Data (PySpark)

South Korea - Python and Spark for Big Data (PySpark)

Pakistan - Python and Spark for Big Data (PySpark)

Sri Lanka - Python and Spark for Big Data (PySpark)

Bulgaria - Python and Spark for Big Data (PySpark)

Bolivia - Python y Spark para Big Data (PySpark)

Indonesia - Python and Spark for Big Data (PySpark)

Kazakhstan - Python and Spark for Big Data (PySpark)

Moldova - Python and Spark for Big Data (PySpark)

Morocco - Python and Spark for Big Data (PySpark)

Tunisia - Python and Spark for Big Data (PySpark)

Kuwait - Python and Spark for Big Data (PySpark)

Oman - Python and Spark for Big Data (PySpark)

Slovakia - Python and Spark for Big Data (PySpark)

Kenya - Python and Spark for Big Data (PySpark)

Nigeria - Python and Spark for Big Data (PySpark)

Botswana - Python and Spark for Big Data (PySpark)

Slovenia - Python and Spark for Big Data (PySpark)

Croatia - Python and Spark for Big Data (PySpark)

Serbia - Python and Spark for Big Data (PySpark)

Bhutan - Python and Spark for Big Data (PySpark)

Nepal - Python and Spark for Big Data (PySpark)

Uzbekistan - Python and Spark for Big Data (PySpark)