- komfort z podstawową Linux administracją systemem
- podstawowe umiejętności pisania skryptów
Znajomość Hadoop i obliczeń rozproszonych nie jest wymagana, ale zostanie wprowadzona i wyjaśniona w trakcie kursu.
Środowisko laboratoryjne
Zero Install: Nie ma potrzeby instalowania oprogramowania hadoop na komputerach studentów! Uczniom zostanie udostępniony działający klaster hadoop.
Studenci będą potrzebować
- klient SSH (Linux i Mac mają już klientów ssh, dla Windows zalecany jest Putty)
- przeglądarka umożliwiająca dostęp do klastra. Zalecamy przeglądarkę Firefox z zainstalowanym rozszerzeniem FoxyProxy
Apache Hadoop to najpopularniejszy framework do przetwarzania Big Data na klastrach serwerów. Podczas tego trzydniowego (opcjonalnie czterodniowego) kursu uczestnicy dowiedzą się o korzyściach biznesowych i przypadkach użycia Hadoop i jego ekosystemu, jak zaplanować wdrożenie i rozwój klastra, jak zainstalować, utrzymywać, monitorować, rozwiązywać problemy i optymalizować Hadoop. Uczestnicy przećwiczą również masowe ładowanie danych w klastrze, zapoznają się z różnymi dystrybucjami Hadoop oraz przećwiczą instalację i zarządzanie narzędziami ekosystemu Hadoop. Kurs kończy się dyskusją na temat zabezpieczania klastra za pomocą Kerberos.
"... Materiały były bardzo dobrze przygotowane i dokładnie omówione. Laboratorium było bardzo pomocne i dobrze zorganizowane"
- Andrew Nguyen, główny inżynier integracji DW, Microsoft Online Advertising
Publiczność
Hadoop Administratorzy
Format
Wykłady i praktyczne laboratoria, przybliżona równowaga 60% wykładów, 40% laboratoriów.
- Wprowadzenie
- Hadoop historia, koncepcje
- Ekosystem
- Dystrybucje
- Architektura wysokiego poziomu
- Hadoop mity
- Hadoop wyzwania (sprzęt / oprogramowanie)
- Laboratoria: omów swoje Big Data projekty i problemy
- Planowanie i instalacja
- Wybór oprogramowania, Hadoop dystrybucje
- Dobór rozmiaru klastra, planowanie rozwoju
- Wybór sprzętu i sieci
- Topologia szafy
- Instalacja
- Multi-tenancy
- Struktura katalogów, dzienniki
- Analiza porównawcza
- Laboratoria: instalacja klastra, uruchamianie testów wydajności
- Operacje HDFS
- Koncepcje (skalowanie poziome, replikacja, lokalność danych, świadomość stelaża)
- Węzły i demony (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitorowanie kondycji
- Administracja z poziomu wiersza poleceń i przeglądarki
- Dodawanie pamięci masowej, wymiana uszkodzonych dysków
- Laboratoria: zapoznanie się z wierszami poleceń HDFS
- Pobieranie danych
- Flume do pozyskiwania logów i innych danych do HDFS
- Sqoop do importowania z SQL baz danych do HDFS, a także eksportowania z powrotem do SQL.
- Hurtownie danych Hadoop z Hive
- Kopiowanie danych między klastrami (distcp)
- Korzystanie z S3 jako uzupełnienie HDFS
- Najlepsze praktyki i architektury pozyskiwania danych
- Laboratoria: konfigurowanie i używanie Flume, to samo dla Sqoop
- Operacje i administracja MapReduce
- Obliczenia równoległe przed mapreduce: porównanie administracji HPC vs Hadoop
- Obciążenia klastra MapReduce
- Węzły i demony (JobTracker, TaskTracker)
- Przejście przez interfejs użytkownika MapReduce
- Konfiguracja mapreduce
- Konfiguracja zadań
- Optymalizacja MapReduce
- Odporność na błędy w MR: co powiedzieć programistom?
- Laboratoria: uruchamianie przykładów MapReduce
- YARN: nowa architektura i nowe możliwości
- Cele projektowe i architektura wdrożenia sieci YARN
- Nowi aktorzy: ResourceManager, NodeManager, Application Master
- Instalowanie sieci YARN
- Planowanie zadań w sieci YARN
- Laboratoria: badanie planowania zadań
- Tematy zaawansowane
- Monitorowanie sprzętu
- Monitorowanie klastra
- Dodawanie i usuwanie serwerów, aktualizacja Hadoop
- Tworzenie kopii zapasowych, odzyskiwanie danych i planowanie ciągłości działania
- Przepływy pracy zadań Oozie
- Hadoop Wysoka dostępność (HA)
- Federacja Hadoop
- Zabezpieczanie klastra za pomocą protokołu Kerberos
- Laboratoria: konfiguracja monitorowania
- Ścieżki opcjonalne
- Cloudera Manager do administrowania klastrem, monitorowania i rutynowych zadań; instalacja, użytkowanie. W tej ścieżce wszystkie ćwiczenia i laboratoria są wykonywane w środowisku dystrybucji Cloudera (CDH5).
- Ambari do administrowania klastrami, monitorowania i wykonywania rutynowych zadań; instalacja, użytkowanie. W tej ścieżce wszystkie ćwiczenia i laboratoria są wykonywane w ramach menedżera klastra Ambari i platformy danych Hortonworks (HDP 2.0).
United Arab Emirates - Hadoop For Administrators
Qatar - Hadoop For Administrators
Egypt - Hadoop For Administrators
Saudi Arabia - Hadoop For Administrators
South Africa - Hadoop For Administrators
Brasil - Hadoop For Administrators
Canada - Hadoop For Administrators
中国 - Hadoop For Administrators
香港 - Hadoop For Administrators
澳門 - Hadoop For Administrators
台灣 - Hadoop For Administrators
USA - Hadoop For Administrators
Österreich - Hadoop For Administrators
Schweiz - Hadoop For Administrators
Deutschland - Hadoop For Administrators
Czech Republic - Hadoop For Administrators
Denmark - Hadoop For Administrators
Estonia - Hadoop For Administrators
Finland - Hadoop For Administrators
Greece - Hadoop For Administrators
Magyarország - Hadoop For Administrators
Ireland - Hadoop For Administrators
Luxembourg - Hadoop For Administrators
Latvia - Hadoop For Administrators
España - Hadoop para Administradores
Italia - Hadoop For Administrators
Lithuania - Hadoop For Administrators
Nederland - Hadoop For Administrators
Norway - Hadoop For Administrators
Portugal - Hadoop For Administrators
România - Hadoop For Administrators
Sverige - Hadoop For Administrators
Türkiye - Hadoop For Administrators
Malta - Hadoop For Administrators
Belgique - Hadoop pour Administrateurs
France - Hadoop pour Administrateurs
日本 - Hadoop For Administrators
Australia - Hadoop For Administrators
Malaysia - Hadoop For Administrators
New Zealand - Hadoop For Administrators
Philippines - Hadoop For Administrators
Singapore - Hadoop For Administrators
Thailand - Hadoop For Administrators
Vietnam - Hadoop For Administrators
India - Hadoop For Administrators
Argentina - Hadoop para Administradores
Chile - Hadoop para Administradores
Costa Rica - Hadoop para Administradores
Ecuador - Hadoop para Administradores
Guatemala - Hadoop para Administradores
Colombia - Hadoop para Administradores
México - Hadoop para Administradores
Panama - Hadoop para Administradores
Peru - Hadoop para Administradores
Uruguay - Hadoop para Administradores
Venezuela - Hadoop para Administradores
Polska - Hadoop For Administrators
United Kingdom - Hadoop For Administrators
South Korea - Hadoop For Administrators
Pakistan - Hadoop For Administrators
Sri Lanka - Hadoop For Administrators
Bulgaria - Hadoop For Administrators
Bolivia - Hadoop para Administradores
Indonesia - Hadoop For Administrators
Kazakhstan - Hadoop For Administrators
Moldova - Hadoop For Administrators
Morocco - Hadoop For Administrators
Tunisia - Hadoop For Administrators
Kuwait - Hadoop For Administrators
Oman - Hadoop For Administrators
Slovakia - Hadoop For Administrators
Kenya - Hadoop For Administrators
Nigeria - Hadoop For Administrators
Botswana - Hadoop For Administrators
Slovenia - Hadoop For Administrators
Croatia - Hadoop For Administrators
Serbia - Hadoop For Administrators
Bhutan - Hadoop For Administrators