Course Code: pysparkmlgsg
Duration: 21 hours
Prerequisites:
Uczestnicy powinni posiadać następujące umiejętności:
Podstawowa znajomość programowania w Pythonie, w tym pracy z funkcjami, strukturami danych i bibliotekami
Podstawowe zrozumienie koncepcji analizy danych, takich jak zbiory danych, transformacje i agregacje
Podstawowa znajomość SQL i koncepcji danych relacyjnych
Wstępne zrozumienie koncepcji uczenia maszynowego, takich jak zbiory treningowe, cechy i metryki oceny
Znajomość środowisk wiersza poleceń i podstawowych praktyk tworzenia oprogramowania jest zalecana
Doświadczenie z bibliotekami do przetwarzania danych, takimi jak Pandas czy NumPy, jest pomocne, ale nie obowiązkowe.
Overview:
Szkolenie to zapewnia praktyczne wprowadzenie do budowania skalowalnych procesów przetwarzania danych i przepływów pracy w zakresie uczenia maszynowego przy użyciu PySpark. Uczestnicy dowiedzą się, jak Apache Spark działa w ramach nowoczesnych ekosystemów Big Data oraz jak efektywnie przetwarzać duże zbiory danych, korzystając z zasad obliczeń rozproszonych.
Kurs stopniowo przechodzi od architektury Spark i operacji na DataFrame do zaawansowanych tematów, takich jak inżynieria cech, trenowanie modeli uczenia maszynowego i budowanie kompleksowych potoków ML przy użyciu Spark MLlib. Uczestnicy poznają również techniki optymalizacji wydajności, strategie oceny modeli oraz praktyki przedsiębiorstw związane z wdrażaniem przepływów pracy uczenia maszynowego na dużą skalę.
Dzięki praktycznym ćwiczeniom i scenariuszom inspirowanym rzeczywistymi przypadkami, uczestnicy nauczą się projektować efektywne potoki danych, przygotowywać zbiory danych do uczenia maszynowego oraz budować rozproszone modele ML, zdolne do obsługi dużych wolumenów danych, typowych dla środowisk przedsiębiorstw.
Po zakończeniu szkolenia uczestnicy zrozumieją, jak zintegrować PySpark z nowoczesnymi platformami danych i stosować skalowalne techniki uczenia maszynowego w środowiskach produkcyjnych.
Course Outline:
PySpark & Uczenie Maszynowe
Moduł 1: Podstawy Big Data i Spark
- Przegląd ekosystemu Big Data i roli Spark w nowoczesnych platformach danych
- Zrozumienie architektury Spark: sterownik, egzekutory, menedżer klastrów, leniwe obliczenia, DAG i planowanie wykonania
- Różnice między API RDD i DataFrame oraz kiedy stosować każde z podejść
- Tworzenie i konfigurowanie SparkSession oraz podstawy konfiguracji aplikacji
Moduł 2: PySpark DataFrames
- Odczyt i zapis danych z przedsiębiorczych źródeł i formatów (CSV, JSON, Parquet, Delta)
- Praca z PySpark DataFrames: transformacje, akcje, wyrażenia kolumnowe, filtrowanie, łączenia i agregacje
- Implementacja zaawansowanych operacji, takich jak funkcje okienkowe, obsługa znaczników czasu i praca z danymi zagnieżdżonymi
- Stosowanie kontroli jakości danych i pisanie wielokrotnego użytku, łatwego w utrzymaniu kodu PySpark
Moduł 3: Efektywne przetwarzanie dużych zbiorów danych
- Zrozumienie podstaw wydajności: strategie partycjonowania, zachowanie shuffle, buforowanie i trwałość
- Stosowanie technik optymalizacji, w tym łączeń broadcast i analizy planów wykonania
- Efektywne przetwarzanie dużych zbiorów danych i najlepsze praktyki dla skalowalnych przepływów pracy
- Zrozumienie ewolucji schematów i nowoczesnych formatów przechowywania stosowanych w środowiskach przedsiębiorstw
Moduł 4: Inżynieria cech na dużą skalę
- Wykonywanie inżynierii cech z Spark MLlib: obsługa brakujących wartości, kodowanie zmiennych kategorycznych i skalowanie cech
- Projektowanie wielokrotnego użytku kroków przetwarzania wstępnego i przygotowywanie zbiorów danych do potoków uczenia maszynowego
- Wprowadzenie do selekcji cech i obsługi niezrównoważonych zbiorów danych
Moduł 5: Uczenie Maszynowe z Spark MLlib
- Zrozumienie architektury MLlib i wzorca Estymator/Transformer
- Trenowanie modeli regresji i klasyfikacji na dużą skalę (Regresja Liniowa, Regresja Logistyczna, Drzewa Decyzyjne, Las Losowy)
- Porównywanie modeli i interpretacja wyników w rozproszonych przepływach pracy uczenia maszynowego
Moduł 6: Kompletne Potoki Uczenia Maszynowego
- Budowanie kompleksowych potoków uczenia maszynowego łączących przetwarzanie wstępne, inżynierię cech i modelowanie
- Stosowanie strategii podziału na zbiory treningowe/walidacyjne/testowe
- Przeprowadzanie walidacji krzyżowej i strojenia hiperparametrów przy użyciu przeszukiwania siatkowego i losowego
- Strukturyzacja powtarzalnych eksperymentów uczenia maszynowego
Moduł 7: Ocena Modeli & Praktyczne Podejmowanie Decyzji w ML
- Stosowanie odpowiednich metryk oceny dla problemów regresji i klasyfikacji
- Identyfikacja przeuczenia i niedouczenia oraz podejmowanie praktycznych decyzji dotyczących wyboru modelu
- Interpretacja ważności cech i zrozumienie zachowania modelu
Moduł 8: Praktyki Produkcyjne & Przedsiębiorcze
- Zapisywanie i ładowanie modeli w Spark
- Implementacja przepływów pracy wnioskowania wsadowego na dużych zbiorach danych
- Zrozumienie cyklu życia uczenia maszynowego w środowiskach przedsiębiorstw
- Wprowadzenie do wersjonowania, śledzenia eksperymentów i podstawowych strategii testowania
Praktyczne Efekty
- Umiejętność samodzielnej pracy z PySpark
- Umiejętność efektywnego przetwarzania dużych zbiorów danych
- Umiejętność wykonywania inżynierii cech na dużą skalę
- Umiejętność budowania skalowalnych potoków uczenia maszynowego
United Arab Emirates - PySpark and Machine Learning
Qatar - PySpark and Machine Learning
Egypt - PySpark and Machine Learning
Saudi Arabia - PySpark and Machine Learning
South Africa - PySpark and Machine Learning
Brasil - PySpark e Machine Learning
Canada - PySpark and Machine Learning
香港 - PySpark and Machine Learning
澳門 - PySpark and Machine Learning
USA - PySpark and Machine Learning
Österreich - PySpark und Machine Learning
Schweiz - PySpark und Machine Learning
Deutschland - PySpark und Machine Learning
Czech Republic - PySpark a strojové učení
Denmark - PySpark and Machine Learning
Estonia - PySpark and Machine Learning
Finland - PySpark and Machine Learning
Greece - PySpark και Μηχανική Μάθησης
Magyarország - PySpark és gépi tanulás
Ireland - PySpark and Machine Learning
Luxembourg - PySpark and Machine Learning
Latvia - PySpark and Machine Learning
España - PySpark y Aprendizaje Automático
Italia - PySpark e Machine Learning
Lithuania - PySpark and Machine Learning
Nederland - PySpark en Machine Learning
Norway - PySpark og Maskinlæring
Portugal - PySpark e Machine Learning
România - PySpark și Machine Learning
Sverige - PySpark och Maskininlärning
Türkiye - PySpark ve Makine Öğrenimi
Malta - PySpark and Machine Learning
Belgique - PySpark et Machine Learning
France - PySpark et Machine Learning
Australia - PySpark and Machine Learning
Malaysia - PySpark and Machine Learning
New Zealand - PySpark and Machine Learning
Philippines - PySpark and Machine Learning
Singapore - PySpark and Machine Learning
Thailand - PySpark and Machine Learning
India - PySpark and Machine Learning
Argentina - PySpark y Aprendizaje Automático
Chile - PySpark y Aprendizaje Automático
Costa Rica - PySpark y Aprendizaje Automático
Ecuador - PySpark y Aprendizaje Automático
Guatemala - PySpark y Aprendizaje Automático
Colombia - PySpark y Aprendizaje Automático
México - PySpark y Aprendizaje Automático
Panama - PySpark y Aprendizaje Automático
Peru - PySpark y Aprendizaje Automático
Uruguay - PySpark y Aprendizaje Automático
Venezuela - PySpark y Aprendizaje Automático
Polska - PySpark i Uczenie Maszynowe
United Kingdom - PySpark and Machine Learning
Pakistan - PySpark and Machine Learning
Sri Lanka - PySpark and Machine Learning
Bulgaria - PySpark и машинно обучение
Bolivia - PySpark y Aprendizaje Automático
Indonesia - PySpark and Machine Learning
Kazakhstan - PySpark and Machine Learning
Moldova - PySpark și Machine Learning
Morocco - PySpark and Machine Learning
Tunisia - PySpark and Machine Learning
Kuwait - PySpark and Machine Learning
Oman - PySpark and Machine Learning
Slovakia - PySpark and Machine Learning
Kenya - PySpark and Machine Learning
Nigeria - PySpark and Machine Learning
Botswana - PySpark and Machine Learning
Slovenia - PySpark and Machine Learning
Croatia - PySpark and Machine Learning
Serbia - PySpark and Machine Learning
Bhutan - PySpark and Machine Learning
Nepal - PySpark and Machine Learning