Course Code: hadoopadm1
Duration: 21 hours
Prerequisites:
  • komfort z podstawową Linux administracją systemem
  • podstawowe umiejętności pisania skryptów

Znajomość Hadoop i obliczeń rozproszonych nie jest wymagana, ale zostanie wprowadzona i wyjaśniona w trakcie kursu.

Środowisko laboratoryjne

Zero Install: Nie ma potrzeby instalowania oprogramowania hadoop na komputerach studentów! Uczniom zostanie udostępniony działający klaster hadoop.

Studenci będą potrzebować

  • klient SSH (Linux i Mac mają już klientów ssh, dla Windows zalecany jest Putty)
  • przeglądarka umożliwiająca dostęp do klastra. Zalecamy przeglądarkę Firefox z zainstalowanym rozszerzeniem FoxyProxy
Overview:

Apache Hadoop to najpopularniejszy framework do przetwarzania Big Data na klastrach serwerów. Podczas tego trzydniowego (opcjonalnie czterodniowego) kursu uczestnicy dowiedzą się o korzyściach biznesowych i przypadkach użycia Hadoop i jego ekosystemu, jak zaplanować wdrożenie i rozwój klastra, jak zainstalować, utrzymywać, monitorować, rozwiązywać problemy i optymalizować Hadoop. Uczestnicy przećwiczą również masowe ładowanie danych w klastrze, zapoznają się z różnymi dystrybucjami Hadoop oraz przećwiczą instalację i zarządzanie narzędziami ekosystemu Hadoop. Kurs kończy się dyskusją na temat zabezpieczania klastra za pomocą Kerberos.

"... Materiały były bardzo dobrze przygotowane i dokładnie omówione. Laboratorium było bardzo pomocne i dobrze zorganizowane"
- Andrew Nguyen, główny inżynier integracji DW, Microsoft Online Advertising

Publiczność

Hadoop Administratorzy

Format

Wykłady i praktyczne laboratoria, przybliżona równowaga 60% wykładów, 40% laboratoriów.

Course Outline:
  • Wprowadzenie
    • Hadoop historia, koncepcje
    • Ekosystem
    • Dystrybucje
    • Architektura wysokiego poziomu
    • Hadoop mity
    • Hadoop wyzwania (sprzęt / oprogramowanie)
    • Laboratoria: omów swoje Big Data projekty i problemy
  • Planowanie i instalacja
    • Wybór oprogramowania, Hadoop dystrybucje
    • Dobór rozmiaru klastra, planowanie rozwoju
    • Wybór sprzętu i sieci
    • Topologia szafy
    • Instalacja
    • Multi-tenancy
    • Struktura katalogów, dzienniki
    • Analiza porównawcza
    • Laboratoria: instalacja klastra, uruchamianie testów wydajności
  • Operacje HDFS
    • Koncepcje (skalowanie poziome, replikacja, lokalność danych, świadomość stelaża)
    • Węzły i demony (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Monitorowanie kondycji
    • Administracja z poziomu wiersza poleceń i przeglądarki
    • Dodawanie pamięci masowej, wymiana uszkodzonych dysków
    • Laboratoria: zapoznanie się z wierszami poleceń HDFS
  • Pobieranie danych
    • Flume do pozyskiwania logów i innych danych do HDFS
    • Sqoop do importowania z SQL baz danych do HDFS, a także eksportowania z powrotem do SQL.
    • Hurtownie danych Hadoop z Hive
    • Kopiowanie danych między klastrami (distcp)
    • Korzystanie z S3 jako uzupełnienie HDFS
    • Najlepsze praktyki i architektury pozyskiwania danych
    • Laboratoria: konfigurowanie i używanie Flume, to samo dla Sqoop
  • Operacje i administracja MapReduce
    • Obliczenia równoległe przed mapreduce: porównanie administracji HPC vs Hadoop
    • Obciążenia klastra MapReduce
    • Węzły i demony (JobTracker, TaskTracker)
    • Przejście przez interfejs użytkownika MapReduce
    • Konfiguracja mapreduce
    • Konfiguracja zadań
    • Optymalizacja MapReduce
    • Odporność na błędy w MR: co powiedzieć programistom?
    • Laboratoria: uruchamianie przykładów MapReduce
  • YARN: nowa architektura i nowe możliwości
    • Cele projektowe i architektura wdrożenia sieci YARN
    • Nowi aktorzy: ResourceManager, NodeManager, Application Master
    • Instalowanie sieci YARN
    • Planowanie zadań w sieci YARN
    • Laboratoria: badanie planowania zadań
  • Tematy zaawansowane
    • Monitorowanie sprzętu
    • Monitorowanie klastra
    • Dodawanie i usuwanie serwerów, aktualizacja Hadoop
    • Tworzenie kopii zapasowych, odzyskiwanie danych i planowanie ciągłości działania
    • Przepływy pracy zadań Oozie
    • Hadoop Wysoka dostępność (HA)
    • Federacja Hadoop
    • Zabezpieczanie klastra za pomocą protokołu Kerberos
    • Laboratoria: konfiguracja monitorowania
  • Ścieżki opcjonalne
    • Cloudera Manager do administrowania klastrem, monitorowania i rutynowych zadań; instalacja, użytkowanie. W tej ścieżce wszystkie ćwiczenia i laboratoria są wykonywane w środowisku dystrybucji Cloudera (CDH5).
    • Ambari do administrowania klastrami, monitorowania i wykonywania rutynowych zadań; instalacja, użytkowanie. W tej ścieżce wszystkie ćwiczenia i laboratoria są wykonywane w ramach menedżera klastra Ambari i platformy danych Hortonworks (HDP 2.0).
Sites Published:

United Arab Emirates - Hadoop For Administrators

Qatar - Hadoop For Administrators

Egypt - Hadoop For Administrators

Saudi Arabia - Hadoop For Administrators

South Africa - Hadoop For Administrators

Brasil - Hadoop For Administrators

Canada - Hadoop For Administrators

中国 - Hadoop For Administrators

香港 - Hadoop For Administrators

澳門 - Hadoop For Administrators

台灣 - Hadoop For Administrators

USA - Hadoop For Administrators

Österreich - Hadoop For Administrators

Schweiz - Hadoop For Administrators

Deutschland - Hadoop For Administrators

Czech Republic - Hadoop For Administrators

Denmark - Hadoop For Administrators

Estonia - Hadoop For Administrators

Finland - Hadoop For Administrators

Greece - Hadoop For Administrators

Magyarország - Hadoop For Administrators

Ireland - Hadoop For Administrators

Luxembourg - Hadoop For Administrators

Latvia - Hadoop For Administrators

España - Hadoop para Administradores

Italia - Hadoop For Administrators

Lithuania - Hadoop For Administrators

Nederland - Hadoop For Administrators

Norway - Hadoop For Administrators

Portugal - Hadoop For Administrators

România - Hadoop For Administrators

Sverige - Hadoop For Administrators

Türkiye - Hadoop For Administrators

Malta - Hadoop For Administrators

Belgique - Hadoop pour Administrateurs

France - Hadoop pour Administrateurs

日本 - Hadoop For Administrators

Australia - Hadoop For Administrators

Malaysia - Hadoop For Administrators

New Zealand - Hadoop For Administrators

Philippines - Hadoop For Administrators

Singapore - Hadoop For Administrators

Thailand - Hadoop For Administrators

Vietnam - Hadoop For Administrators

India - Hadoop For Administrators

Argentina - Hadoop para Administradores

Chile - Hadoop para Administradores

Costa Rica - Hadoop para Administradores

Ecuador - Hadoop para Administradores

Guatemala - Hadoop para Administradores

Colombia - Hadoop para Administradores

México - Hadoop para Administradores

Panama - Hadoop para Administradores

Peru - Hadoop para Administradores

Uruguay - Hadoop para Administradores

Venezuela - Hadoop para Administradores

Polska - Hadoop For Administrators

United Kingdom - Hadoop For Administrators

South Korea - Hadoop For Administrators

Pakistan - Hadoop For Administrators

Sri Lanka - Hadoop For Administrators

Bulgaria - Hadoop For Administrators

Bolivia - Hadoop para Administradores

Indonesia - Hadoop For Administrators

Kazakhstan - Hadoop For Administrators

Moldova - Hadoop For Administrators

Morocco - Hadoop For Administrators

Tunisia - Hadoop For Administrators

Kuwait - Hadoop For Administrators

Oman - Hadoop For Administrators

Slovakia - Hadoop For Administrators

Kenya - Hadoop For Administrators

Nigeria - Hadoop For Administrators

Botswana - Hadoop For Administrators

Slovenia - Hadoop For Administrators

Croatia - Hadoop For Administrators

Serbia - Hadoop For Administrators

Bhutan - Hadoop For Administrators

Nepal - Hadoop For Administrators

Uzbekistan - Hadoop For Administrators