- dobrze znający język programowania Java (większość zadań programistycznych jest w Javie)
- komfortowo w środowisku Linux (umieć poruszać się po wierszu polecenia Linux, edytować pliki za pomocą vi / nano)
środowisko laboratoryjne
Zero Install : Nie ma potrzeby instalowania oprogramowania Hadoop na komputerach studentów! Dla studentów zostanie udostępniony działający klaster Hadoop.
Studenci będą potrzebować następujących:
- klienta SSH (Linux i Mac już mają klienty SSH, dla systemu Windows polecam Putty)
- przeglądarkę do dostępu do klastera, zalecana Firefox
Apache Hadoop jest najpopularniejszym frameworkiem do przetwarzania danych na klastrze serwerów. Ten kurs wprowadzi programistę w różne komponenty (HDFS, MapReduce, Pig, Hive i HBase) ekosystemu Hadoop.
Sekcja 1: Wprowadzenie do Hadoop
- historia i koncepcje Hadoop
- ekosystem
- dystrybucje
- architektura wysokiego poziomu
- mity związane z Hadoop
- wyzwania związane z Hadoop
- oprogramowanie / sprzęt
- laboratorium: pierwszy kontakt z Hadoop
Sekcja 2: HDFS
- projektowanie i architektura
- koncepcje (skalowanie poziome, replikacja, lokalizacja danych, świadomość regału)
- Demony: Namenode, Secondary namenode, Data node
- komunikacja / serca
- całość danych
- ścieżka odczytu / zapisu
- Namenode Wysokiej Dostępności (HA), Federacja
- laboratoria: Współpraca z HDFS
Sekcja 3: Map Reduce
- koncepcje i architektura
- demony (MRV1): jobtracker / tasktracker
- fazy: driver, mapper, shuffle/sort, reducer
- Map Reduce wersja 1 i wersja 2 (YARN)
- wnętrze Map Reduce
- Wprowadzenie do programowania Map Reduce w Java
- laboratoria: Uruchamianie przykładowego programu MapReduce
Sekcja 4: Pig
- porównanie Pig i Java Map Reduce
- przepływ zadania Pig
- język Pig Latin
- ETL z Pig
- transformacje & łączenia
- funkcje zdefiniowane przez użytkownika (UDF)
- laboratoria: pisanie skryptów Pig do analizy danych
Sekcja 5: Hive
- architektura i projektowanie
- typy danych
- obsługa SQL w Hive
- tworzenie tabel Hive i zapytania
- podziały
- łączenia
- przetwarzanie tekstu
- laboratoria: różne laboratoria dotyczące przetwarzania danych z użyciem Hive
Sekcja 6: HBase
- koncepcje i architektura
- HBase vs RDBMS vs Cassandra
- API Java HBase
- dane czasowe na HBase
- projektowanie schematu
- laboratoria: interakcja z HBase za pomocą powłoki; programowanie w API Java HBase; ćwiczenie projektowania schematu
United Arab Emirates - Hadoop for Developers (4 days)
Qatar - Hadoop for Developers (4 days)
Egypt - Hadoop for Developers (4 days)
Saudi Arabia - Hadoop for Developers (4 days)
South Africa - Hadoop for Developers (4 days)
Brasil - Hadoop for Developers (4 days)
Canada - Hadoop for Developers (4 days)
中国 - Hadoop for Developers (4 days)
香港 - Hadoop for Developers (4 days)
澳門 - Hadoop for Developers (4 days)
台灣 - Hadoop for Developers (4 days)
USA - Hadoop for Developers (4 days)
Österreich - Hadoop for Developers (4 days)
Schweiz - Hadoop for Developers (4 days)
Deutschland - Hadoop for Developers (4 days)
Czech Republic - Hadoop for Developers (4 days)
Denmark - Hadoop for Developers (4 days)
Estonia - Hadoop for Developers (4 days)
Finland - Hadoop for Developers (4 days)
Greece - Hadoop for Developers (4 days)
Magyarország - Hadoop for Developers (4 days)
Ireland - Hadoop for Developers (4 days)
Luxembourg - Hadoop for Developers (4 days)
Latvia - Hadoop for Developers (4 days)
España - Hadoop para Desarrolladores (4 días)
Italia - Hadoop for Developers (4 days)
Lithuania - Hadoop for Developers (4 days)
Nederland - Hadoop for Developers (4 days)
Norway - Hadoop for Developers (4 days)
Portugal - Hadoop for Developers (4 days)
România - Hadoop for Developers (4 days)
Sverige - Hadoop for Developers (4 days)
Türkiye - Hadoop for Developers (4 days)
Malta - Hadoop for Developers (4 days)
Belgique - Hadoop for Developers (4 days)
France - Hadoop for Developers (4 days)
日本 - Hadoop for Developers (4 days)
Australia - Hadoop for Developers (4 days)
Malaysia - Hadoop for Developers (4 days)
New Zealand - Hadoop for Developers (4 days)
Philippines - Hadoop for Developers (4 days)
Singapore - Hadoop for Developers (4 days)
Thailand - Hadoop for Developers (4 days)
Vietnam - Hadoop for Developers (4 days)
India - Hadoop for Developers (4 days)
Argentina - Hadoop para Desarrolladores (4 días)
Chile - Hadoop para Desarrolladores (4 días)
Costa Rica - Hadoop para Desarrolladores (4 días)
Ecuador - Hadoop para Desarrolladores (4 días)
Guatemala - Hadoop para Desarrolladores (4 días)
Colombia - Hadoop para Desarrolladores (4 días)
México - Hadoop para Desarrolladores (4 días)
Panama - Hadoop para Desarrolladores (4 días)
Peru - Hadoop para Desarrolladores (4 días)
Uruguay - Hadoop para Desarrolladores (4 días)
Venezuela - Hadoop para Desarrolladores (4 días)
Polska - Hadoop for Developers (4 days)
United Kingdom - Hadoop for Developers (4 days)
South Korea - Hadoop for Developers (4 days)
Pakistan - Hadoop for Developers (4 days)
Sri Lanka - Hadoop for Developers (4 days)
Bulgaria - Hadoop for Developers (4 days)
Bolivia - Hadoop para Desarrolladores (4 días)
Indonesia - Hadoop for Developers (4 days)
Kazakhstan - Hadoop for Developers (4 days)
Moldova - Hadoop for Developers (4 days)
Morocco - Hadoop for Developers (4 days)
Tunisia - Hadoop for Developers (4 days)
Kuwait - Hadoop for Developers (4 days)
Oman - Hadoop for Developers (4 days)
Slovakia - Hadoop for Developers (4 days)
Kenya - Hadoop for Developers (4 days)
Nigeria - Hadoop for Developers (4 days)
Botswana - Hadoop for Developers (4 days)
Slovenia - Hadoop for Developers (4 days)
Croatia - Hadoop for Developers (4 days)
Serbia - Hadoop for Developers (4 days)
Bhutan - Hadoop for Developers (4 days)