Course Code: hadoopdev
Duration: 28 hours
Prerequisites:
  • dobrze znający język programowania Java (większość zadań programistycznych jest w Javie)
  • komfortowo w środowisku Linux (umieć poruszać się po wierszu polecenia Linux, edytować pliki za pomocą vi / nano)

środowisko laboratoryjne

Zero Install : Nie ma potrzeby instalowania oprogramowania Hadoop na komputerach studentów! Dla studentów zostanie udostępniony działający klaster Hadoop.

Studenci będą potrzebować następujących:

  • klienta SSH (Linux i Mac już mają klienty SSH, dla systemu Windows polecam Putty)
  • przeglądarkę do dostępu do klastera, zalecana Firefox
Overview:

Apache Hadoop jest najpopularniejszym frameworkiem do przetwarzania danych na klastrze serwerów. Ten kurs wprowadzi programistę w różne komponenty (HDFS, MapReduce, Pig, Hive i HBase) ekosystemu Hadoop.

Course Outline:

Sekcja 1: Wprowadzenie do Hadoop

  • historia i koncepcje Hadoop
  • ekosystem
  • dystrybucje
  • architektura wysokiego poziomu
  • mity związane z Hadoop
  • wyzwania związane z Hadoop
  • oprogramowanie / sprzęt
  • laboratorium: pierwszy kontakt z Hadoop

Sekcja 2: HDFS

  • projektowanie i architektura
  • koncepcje (skalowanie poziome, replikacja, lokalizacja danych, świadomość regału)
  • Demony: Namenode, Secondary namenode, Data node
  • komunikacja / serca
  • całość danych
  • ścieżka odczytu / zapisu
  • Namenode Wysokiej Dostępności (HA), Federacja
  • laboratoria: Współpraca z HDFS

Sekcja 3: Map Reduce

  • koncepcje i architektura
  • demony (MRV1): jobtracker / tasktracker
  • fazy: driver, mapper, shuffle/sort, reducer
  • Map Reduce wersja 1 i wersja 2 (YARN)
  • wnętrze Map Reduce
  • Wprowadzenie do programowania Map Reduce w Java
  • laboratoria: Uruchamianie przykładowego programu MapReduce

Sekcja 4: Pig

  • porównanie Pig i Java Map Reduce
  • przepływ zadania Pig
  • język Pig Latin
  • ETL z Pig
  • transformacje & łączenia
  • funkcje zdefiniowane przez użytkownika (UDF)
  • laboratoria: pisanie skryptów Pig do analizy danych

Sekcja 5: Hive

  • architektura i projektowanie
  • typy danych
  • obsługa SQL w Hive
  • tworzenie tabel Hive i zapytania
  • podziały
  • łączenia
  • przetwarzanie tekstu
  • laboratoria: różne laboratoria dotyczące przetwarzania danych z użyciem Hive

Sekcja 6: HBase

  • koncepcje i architektura
  • HBase vs RDBMS vs Cassandra
  • API Java HBase
  • dane czasowe na HBase
  • projektowanie schematu
  • laboratoria: interakcja z HBase za pomocą powłoki; programowanie w API Java HBase; ćwiczenie projektowania schematu
Sites Published:

United Arab Emirates - Hadoop for Developers (4 days)

Qatar - Hadoop for Developers (4 days)

Egypt - Hadoop for Developers (4 days)

Saudi Arabia - Hadoop for Developers (4 days)

South Africa - Hadoop for Developers (4 days)

Brasil - Hadoop for Developers (4 days)

Canada - Hadoop for Developers (4 days)

中国 - Hadoop for Developers (4 days)

香港 - Hadoop for Developers (4 days)

澳門 - Hadoop for Developers (4 days)

台灣 - Hadoop for Developers (4 days)

USA - Hadoop for Developers (4 days)

Österreich - Hadoop for Developers (4 days)

Schweiz - Hadoop for Developers (4 days)

Deutschland - Hadoop for Developers (4 days)

Czech Republic - Hadoop for Developers (4 days)

Denmark - Hadoop for Developers (4 days)

Estonia - Hadoop for Developers (4 days)

Finland - Hadoop for Developers (4 days)

Greece - Hadoop for Developers (4 days)

Magyarország - Hadoop for Developers (4 days)

Ireland - Hadoop for Developers (4 days)

Luxembourg - Hadoop for Developers (4 days)

Latvia - Hadoop for Developers (4 days)

España - Hadoop para Desarrolladores (4 días)

Italia - Hadoop for Developers (4 days)

Lithuania - Hadoop for Developers (4 days)

Nederland - Hadoop for Developers (4 days)

Norway - Hadoop for Developers (4 days)

Portugal - Hadoop for Developers (4 days)

România - Hadoop for Developers (4 days)

Sverige - Hadoop for Developers (4 days)

Türkiye - Hadoop for Developers (4 days)

Malta - Hadoop for Developers (4 days)

Belgique - Hadoop for Developers (4 days)

France - Hadoop for Developers (4 days)

日本 - Hadoop for Developers (4 days)

Australia - Hadoop for Developers (4 days)

Malaysia - Hadoop for Developers (4 days)

New Zealand - Hadoop for Developers (4 days)

Philippines - Hadoop for Developers (4 days)

Singapore - Hadoop for Developers (4 days)

Thailand - Hadoop for Developers (4 days)

Vietnam - Hadoop for Developers (4 days)

India - Hadoop for Developers (4 days)

Argentina - Hadoop para Desarrolladores (4 días)

Chile - Hadoop para Desarrolladores (4 días)

Costa Rica - Hadoop para Desarrolladores (4 días)

Ecuador - Hadoop para Desarrolladores (4 días)

Guatemala - Hadoop para Desarrolladores (4 días)

Colombia - Hadoop para Desarrolladores (4 días)

México - Hadoop para Desarrolladores (4 días)

Panama - Hadoop para Desarrolladores (4 días)

Peru - Hadoop para Desarrolladores (4 días)

Uruguay - Hadoop para Desarrolladores (4 días)

Venezuela - Hadoop para Desarrolladores (4 días)

Polska - Hadoop for Developers (4 days)

United Kingdom - Hadoop for Developers (4 days)

South Korea - Hadoop for Developers (4 days)

Pakistan - Hadoop for Developers (4 days)

Sri Lanka - Hadoop for Developers (4 days)

Bulgaria - Hadoop for Developers (4 days)

Bolivia - Hadoop para Desarrolladores (4 días)

Indonesia - Hadoop for Developers (4 days)

Kazakhstan - Hadoop for Developers (4 days)

Moldova - Hadoop for Developers (4 days)

Morocco - Hadoop for Developers (4 days)

Tunisia - Hadoop for Developers (4 days)

Kuwait - Hadoop for Developers (4 days)

Oman - Hadoop for Developers (4 days)

Slovakia - Hadoop for Developers (4 days)

Kenya - Hadoop for Developers (4 days)

Nigeria - Hadoop for Developers (4 days)

Botswana - Hadoop for Developers (4 days)

Slovenia - Hadoop for Developers (4 days)

Croatia - Hadoop for Developers (4 days)

Serbia - Hadoop for Developers (4 days)

Bhutan - Hadoop for Developers (4 days)

Nepal - Hadoop for Developers (4 days)

Uzbekistan - Hadoop for Developers (4 days)