Course Code: pysparkmlgsg
Duration: 21 hours
Prerequisites:

Uczestnicy powinni posiadać następujące umiejętności:

Podstawowa znajomość programowania w Pythonie, w tym pracy z funkcjami, strukturami danych i bibliotekami
Podstawowe zrozumienie koncepcji analizy danych, takich jak zbiory danych, transformacje i agregacje
Podstawowa znajomość SQL i koncepcji danych relacyjnych
Wstępne zrozumienie koncepcji uczenia maszynowego, takich jak zbiory treningowe, cechy i metryki oceny
Znajomość środowisk wiersza poleceń i podstawowych praktyk tworzenia oprogramowania jest zalecana

Doświadczenie z bibliotekami do przetwarzania danych, takimi jak Pandas czy NumPy, jest pomocne, ale nie obowiązkowe.

Overview:

Szkolenie to zapewnia praktyczne wprowadzenie do budowania skalowalnych procesów przetwarzania danych i przepływów pracy w zakresie uczenia maszynowego przy użyciu PySpark. Uczestnicy dowiedzą się, jak Apache Spark działa w ramach nowoczesnych ekosystemów Big Data oraz jak efektywnie przetwarzać duże zbiory danych, korzystając z zasad obliczeń rozproszonych.

Kurs stopniowo przechodzi od architektury Spark i operacji na DataFrame do zaawansowanych tematów, takich jak inżynieria cech, trenowanie modeli uczenia maszynowego i budowanie kompleksowych potoków ML przy użyciu Spark MLlib. Uczestnicy poznają również techniki optymalizacji wydajności, strategie oceny modeli oraz praktyki przedsiębiorstw związane z wdrażaniem przepływów pracy uczenia maszynowego na dużą skalę.

Dzięki praktycznym ćwiczeniom i scenariuszom inspirowanym rzeczywistymi przypadkami, uczestnicy nauczą się projektować efektywne potoki danych, przygotowywać zbiory danych do uczenia maszynowego oraz budować rozproszone modele ML, zdolne do obsługi dużych wolumenów danych, typowych dla środowisk przedsiębiorstw.

Po zakończeniu szkolenia uczestnicy zrozumieją, jak zintegrować PySpark z nowoczesnymi platformami danych i stosować skalowalne techniki uczenia maszynowego w środowiskach produkcyjnych.

Course Outline:

PySpark & Uczenie Maszynowe 

Moduł 1: Podstawy Big Data i Spark

  • Przegląd ekosystemu Big Data i roli Spark w nowoczesnych platformach danych
  • Zrozumienie architektury Spark: sterownik, egzekutory, menedżer klastrów, leniwe obliczenia, DAG i planowanie wykonania
  • Różnice między API RDD i DataFrame oraz kiedy stosować każde z podejść
  • Tworzenie i konfigurowanie SparkSession oraz podstawy konfiguracji aplikacji

Moduł 2: PySpark DataFrames

  • Odczyt i zapis danych z przedsiębiorczych źródeł i formatów (CSV, JSON, Parquet, Delta)
  • Praca z PySpark DataFrames: transformacje, akcje, wyrażenia kolumnowe, filtrowanie, łączenia i agregacje
  • Implementacja zaawansowanych operacji, takich jak funkcje okienkowe, obsługa znaczników czasu i praca z danymi zagnieżdżonymi
  • Stosowanie kontroli jakości danych i pisanie wielokrotnego użytku, łatwego w utrzymaniu kodu PySpark

Moduł 3: Efektywne przetwarzanie dużych zbiorów danych

  • Zrozumienie podstaw wydajności: strategie partycjonowania, zachowanie shuffle, buforowanie i trwałość
  • Stosowanie technik optymalizacji, w tym łączeń broadcast i analizy planów wykonania
  • Efektywne przetwarzanie dużych zbiorów danych i najlepsze praktyki dla skalowalnych przepływów pracy
  • Zrozumienie ewolucji schematów i nowoczesnych formatów przechowywania stosowanych w środowiskach przedsiębiorstw

Moduł 4: Inżynieria cech na dużą skalę

  • Wykonywanie inżynierii cech z Spark MLlib: obsługa brakujących wartości, kodowanie zmiennych kategorycznych i skalowanie cech
  • Projektowanie wielokrotnego użytku kroków przetwarzania wstępnego i przygotowywanie zbiorów danych do potoków uczenia maszynowego
  • Wprowadzenie do selekcji cech i obsługi niezrównoważonych zbiorów danych

Moduł 5: Uczenie Maszynowe z Spark MLlib

  • Zrozumienie architektury MLlib i wzorca Estymator/Transformer
  • Trenowanie modeli regresji i klasyfikacji na dużą skalę (Regresja Liniowa, Regresja Logistyczna, Drzewa Decyzyjne, Las Losowy)
  • Porównywanie modeli i interpretacja wyników w rozproszonych przepływach pracy uczenia maszynowego

Moduł 6: Kompletne Potoki Uczenia Maszynowego

  • Budowanie kompleksowych potoków uczenia maszynowego łączących przetwarzanie wstępne, inżynierię cech i modelowanie
  • Stosowanie strategii podziału na zbiory treningowe/walidacyjne/testowe
  • Przeprowadzanie walidacji krzyżowej i strojenia hiperparametrów przy użyciu przeszukiwania siatkowego i losowego
  • Strukturyzacja powtarzalnych eksperymentów uczenia maszynowego

Moduł 7: Ocena Modeli & Praktyczne Podejmowanie Decyzji w ML

  • Stosowanie odpowiednich metryk oceny dla problemów regresji i klasyfikacji
  • Identyfikacja przeuczenia i niedouczenia oraz podejmowanie praktycznych decyzji dotyczących wyboru modelu
  • Interpretacja ważności cech i zrozumienie zachowania modelu

Moduł 8: Praktyki Produkcyjne & Przedsiębiorcze

  • Zapisywanie i ładowanie modeli w Spark
  • Implementacja przepływów pracy wnioskowania wsadowego na dużych zbiorach danych
  • Zrozumienie cyklu życia uczenia maszynowego w środowiskach przedsiębiorstw
  • Wprowadzenie do wersjonowania, śledzenia eksperymentów i podstawowych strategii testowania

 

Praktyczne Efekty

  • Umiejętność samodzielnej pracy z PySpark
  • Umiejętność efektywnego przetwarzania dużych zbiorów danych
  • Umiejętność wykonywania inżynierii cech na dużą skalę
  • Umiejętność budowania skalowalnych potoków uczenia maszynowego

Sites Published:

United Arab Emirates - PySpark and Machine Learning

Qatar - PySpark and Machine Learning

Egypt - PySpark and Machine Learning

Saudi Arabia - PySpark and Machine Learning

South Africa - PySpark and Machine Learning

Brasil - PySpark e Machine Learning

Canada - PySpark and Machine Learning

中国 - PySpark与机器学习

香港 - PySpark and Machine Learning

澳門 - PySpark and Machine Learning

台灣 - PySpark與機器學習

USA - PySpark and Machine Learning

Österreich - PySpark und Machine Learning

Schweiz - PySpark und Machine Learning

Deutschland - PySpark und Machine Learning

Czech Republic - PySpark a strojové učení

Denmark - PySpark and Machine Learning

Estonia - PySpark and Machine Learning

Finland - PySpark and Machine Learning

Greece - PySpark και Μηχανική Μάθησης

Magyarország - PySpark és gépi tanulás

Ireland - PySpark and Machine Learning

Luxembourg - PySpark and Machine Learning

Latvia - PySpark and Machine Learning

España - PySpark y Aprendizaje Automático

Italia - PySpark e Machine Learning

Lithuania - PySpark and Machine Learning

Nederland - PySpark en Machine Learning

Norway - PySpark og Maskinlæring

Portugal - PySpark e Machine Learning

România - PySpark și Machine Learning

Sverige - PySpark och Maskininlärning

Türkiye - PySpark ve Makine Öğrenimi

Malta - PySpark and Machine Learning

Belgique - PySpark et Machine Learning

France - PySpark et Machine Learning

日本 - PySpark と機械学習

Australia - PySpark and Machine Learning

Malaysia - PySpark and Machine Learning

New Zealand - PySpark and Machine Learning

Philippines - PySpark and Machine Learning

Singapore - PySpark and Machine Learning

Thailand - PySpark and Machine Learning

Vietnam - PySpark và Học máy

India - PySpark and Machine Learning

Argentina - PySpark y Aprendizaje Automático

Chile - PySpark y Aprendizaje Automático

Costa Rica - PySpark y Aprendizaje Automático

Ecuador - PySpark y Aprendizaje Automático

Guatemala - PySpark y Aprendizaje Automático

Colombia - PySpark y Aprendizaje Automático

México - PySpark y Aprendizaje Automático

Panama - PySpark y Aprendizaje Automático

Peru - PySpark y Aprendizaje Automático

Uruguay - PySpark y Aprendizaje Automático

Venezuela - PySpark y Aprendizaje Automático

Polska - PySpark i Uczenie Maszynowe

United Kingdom - PySpark and Machine Learning

South Korea - PySpark 및 머신러닝

Pakistan - PySpark and Machine Learning

Sri Lanka - PySpark and Machine Learning

Bulgaria - PySpark и машинно обучение

Bolivia - PySpark y Aprendizaje Automático

Indonesia - PySpark and Machine Learning

Kazakhstan - PySpark and Machine Learning

Moldova - PySpark și Machine Learning

Morocco - PySpark and Machine Learning

Tunisia - PySpark and Machine Learning

Kuwait - PySpark and Machine Learning

Oman - PySpark and Machine Learning

Slovakia - PySpark and Machine Learning

Kenya - PySpark and Machine Learning

Nigeria - PySpark and Machine Learning

Botswana - PySpark and Machine Learning

Slovenia - PySpark and Machine Learning

Croatia - PySpark and Machine Learning

Serbia - PySpark and Machine Learning

Bhutan - PySpark and Machine Learning

Nepal - PySpark and Machine Learning

Uzbekistan - PySpark and Machine Learning

US Government - PySpark and Machine Learning