Course Code: sparkpython
Duration: 21 hours
Prerequisites:
  • Ogólne umiejętności programowania

Publiczność

  • Programiści
  • Specjaliści IT
  • Naukowcy zajmujący się danymi
Overview:

Python to język programowania wysokiego poziomu słynący z przejrzystej składni i czytelności kodu. Spark to silnik przetwarzania danych wykorzystywany do wyszukiwania, analizowania i przekształcania dużych zbiorów danych. PySpark umożliwia użytkownikom połączenie Spark z Python.

W tym prowadzonym przez instruktora szkoleniu na żywo uczestnicy dowiedzą się, jak używać Python i Spark razem do analizy dużych zbiorów danych podczas pracy nad ćwiczeniami praktycznymi.

Pod koniec tego szkolenia uczestnicy będą mogli:

  • Dowiedzieć się, jak używać Spark z Python do analizy Big Data.
  • Pracować nad ćwiczeniami, które naśladują rzeczywiste przypadki.
  • Używać różnych narzędzi i technik do analizy dużych zbiorów danych przy użyciu PySpark.

Format kursu

  • Część wykładu, część dyskusji, ćwiczenia i ciężka praktyka praktyczna
Course Outline:

Wprowadzenie

Zrozumienie Big Data

Przegląd Sparka

Przegląd Python

Przegląd PySpark

  • Dystrybucja danych przy użyciu struktury odpornych rozproszonych zbiorów danych
  • Dystrybucja obliczeń przy użyciu operatorów API Spark

Konfigurowanie Python za pomocą Spark

Konfigurowanie PySpark

Używanie Amazon Web Services (AWS) instancji EC2 dla Sparka

Konfigurowanie Databricks

Konfigurowanie klastra AWS EMR

Nauka podstaw Python Programming

  • Pierwsze kroki z Python
  • Korzystanie z notatnika Jupyter
  • Korzystanie ze zmiennych i prostych typów danych
  • Praca z listami
  • Korzystanie z instrukcji if
  • Korzystanie z danych wejściowych użytkownika
  • Praca z pętlami while
  • Implementowanie funkcji
  • Praca z klasami
  • Praca z plikami i wyjątkami
  • Praca z projektami, danymi i interfejsami API

Nauka podstaw Spark DataFrame

  • Rozpoczęcie pracy z ramkami danych Spark
  • Wdrażanie podstawowych operacji za pomocą Sparka
  • Korzystanie z operacji Groupby i Aggregate
  • Praca ze znacznikami czasu i datami

Praca nad projektem Spark DataFrame Ćwiczenie

Zrozumienie Machine Learning z MLlib

Praca z MLlib, Spark i Python dla Machine Learning

Zrozumienie regresji

  • Nauka teorii regresji liniowej
  • Wdrażanie kodu oceny regresji
  • Praca nad przykładowym ćwiczeniem regresji liniowej
  • Nauka teorii regresji logistycznej
  • Implementacja kodu regresji logistycznej
  • Praca nad przykładowym ćwiczeniem z regresji logistycznej

Zrozumienie Random Forests i drzew decyzyjnych

  • Teoria metod drzew decyzyjnych
  • Wdrażanie drzew decyzyjnych i kodów Random Forest
  • Praca nad próbką Random Forest Ćwiczenie klasyfikacyjne

Praca z klastrami K-średnich

  • Zrozumienie teorii grupowania K-średnich
  • Implementacja kodu klastrowania K-średnich
  • Praca nad przykładowym ćwiczeniem klastrowania

Praca z systemami rekomendacji

Wdrażanie przetwarzania języka naturalnego

  • Zrozumienie Natural Language Processing (NLP)
  • Przegląd narzędzi NLP
  • Praca nad przykładowym ćwiczeniem NLP

Streaming z wykorzystaniem Spark na Python

  • Przegląd Streaming z Spark
  • Przykładowe ćwiczenie Spark Streaming

Uwagi końcowe

Sites Published:

United Arab Emirates - Python and Spark for Big Data (PySpark)

Qatar - Python and Spark for Big Data (PySpark)

Egypt - Python and Spark for Big Data (PySpark)

Saudi Arabia - Python and Spark for Big Data (PySpark)

South Africa - Python and Spark for Big Data (PySpark)

Brasil - Python e Spark para Big Data (PySpark)

Canada - Python and Spark for Big Data (PySpark)

中国 - 用Spark和Python通过PySpark处理大数据

香港 - Python and Spark for Big Data (PySpark)

澳門 - Python and Spark for Big Data (PySpark)

台灣 - Python and Spark for Big Data (PySpark)

USA - Python and Spark for Big Data (PySpark)

Österreich - Python and Spark for Big Data (PySpark)

Schweiz - Python and Spark for Big Data (PySpark)

Deutschland - Python and Spark for Big Data (PySpark)

Czech Republic - Python and Spark for Big Data (PySpark)

Denmark - Python and Spark for Big Data (PySpark)

Estonia - Python and Spark for Big Data (PySpark)

Finland - Python and Spark for Big Data (PySpark)

Greece - Python and Spark for Big Data (PySpark)

Magyarország - Python and Spark for Big Data (PySpark)

Ireland - Python and Spark for Big Data (PySpark)

Luxembourg - Python and Spark for Big Data (PySpark)

Latvia - Python and Spark for Big Data (PySpark)

España - Python y Spark para Big Data (PySpark)

Italia - Python and Spark for Big Data (PySpark)

Lithuania - Python and Spark for Big Data (PySpark)

Nederland - Python and Spark for Big Data (PySpark)

Norway - Python and Spark for Big Data (PySpark)

Portugal - Python e Spark para Big Data (PySpark)

România - Python and Spark for Big Data (PySpark)

Sverige - Python and Spark for Big Data (PySpark)

Türkiye - Python and Spark for Big Data (PySpark)

Malta - Python and Spark for Big Data (PySpark)

Belgique - Python and Spark for Big Data (PySpark)

France - Python and Spark for Big Data (PySpark)

日本 - Python and Spark for Big Data (PySpark)

Australia - Python and Spark for Big Data (PySpark)

Malaysia - Python and Spark for Big Data (PySpark)

New Zealand - Python and Spark for Big Data (PySpark)

Philippines - Python and Spark for Big Data (PySpark)

Singapore - Python and Spark for Big Data (PySpark)

Thailand - Python and Spark for Big Data (PySpark)

Vietnam - Python and Spark for Big Data (PySpark)

India - Python and Spark for Big Data (PySpark)

Argentina - Python y Spark para Big Data (PySpark)

Chile - Python y Spark para Big Data (PySpark)

Costa Rica - Python y Spark para Big Data (PySpark)

Ecuador - Python y Spark para Big Data (PySpark)

Guatemala - Python y Spark para Big Data (PySpark)

Colombia - Python y Spark para Big Data (PySpark)

México - Python y Spark para Big Data (PySpark)

Panama - Python y Spark para Big Data (PySpark)

Peru - Python y Spark para Big Data (PySpark)

Uruguay - Python y Spark para Big Data (PySpark)

Venezuela - Python y Spark para Big Data (PySpark)

Polska - Python and Spark for Big Data (PySpark)

United Kingdom - Python and Spark for Big Data (PySpark)

South Korea - Python and Spark for Big Data (PySpark)

Pakistan - Python and Spark for Big Data (PySpark)

Sri Lanka - Python and Spark for Big Data (PySpark)

Bulgaria - Python and Spark for Big Data (PySpark)

Bolivia - Python y Spark para Big Data (PySpark)

Indonesia - Python and Spark for Big Data (PySpark)

Kazakhstan - Python and Spark for Big Data (PySpark)

Moldova - Python and Spark for Big Data (PySpark)

Morocco - Python and Spark for Big Data (PySpark)

Tunisia - Python and Spark for Big Data (PySpark)

Kuwait - Python and Spark for Big Data (PySpark)

Oman - Python and Spark for Big Data (PySpark)

Slovakia - Python and Spark for Big Data (PySpark)

Kenya - Python and Spark for Big Data (PySpark)

Nigeria - Python and Spark for Big Data (PySpark)

Botswana - Python and Spark for Big Data (PySpark)

Slovenia - Python and Spark for Big Data (PySpark)

Croatia - Python and Spark for Big Data (PySpark)

Serbia - Python and Spark for Big Data (PySpark)

Bhutan - Python and Spark for Big Data (PySpark)

Nepal - Python and Spark for Big Data (PySpark)

Uzbekistan - Python and Spark for Big Data (PySpark)