Big data to zbiory danych, które są tak obszerne i złożone, że tradycyjne aplikacje do przetwarzania danych nie są w stanie sobie z nimi poradzić. Wyzwania związane z dużymi zbiorami danych obejmują przechwytywanie danych, przechowywanie danych, analizę danych, wyszukiwanie, udostępnianie, przesyłanie, wizualizację, zapytania, aktualizację i prywatność informacji.
Wprowadzenie do Data Science for Big Data Analytics
- Data Science Przegląd Big Data Przegląd Struktury danych Czynniki i złożoność Big Data Ekosystem Big Data oraz nowe podejście do analityki Kluczowe technologie w procesie i problemach eksploracji dużych zbiorów danych Wyszukiwanie wzorców asocjacji Klastrowanie danych Wykrywanie wartości odstających Klasyfikacja danych
Wprowadzenie do cyklu życia analizy danych
- Odkrycie Przygotowanie danych Planowanie modelu Budowa modelu Prezentacja/Communication wyników Operacjonalizacja Ćwiczenie: Studium przypadku
Od tego momentu większość czasu szkolenia (80%) będzie poświęcona przykładom i ćwiczeniom z R i powiązanej technologii Big Data.
Pierwsze kroki z R
- Instalowanie funkcji R i Rstudio Obiekty języka R w danych R w języku R Manipulacja danymi Zagadnienia dotyczące dużych zbiorów danych Ćwiczenia
Pierwsze kroki z Hadoop
- Instalacja Hadoop Zrozumienie Hadoop trybów Architektura HDFS MapReduce Hadoop przegląd powiązanych projektów Pisanie programów w Hadoop Ćwiczenia MapReduce
Całkowanie R i Hadoop z RHadoop
- Komponenty RHadoop Instalacja RHadoop i łączenie się z Hadoop Architektura RHadoop Hadoop strumieniowanie za pomocą R Rozwiązywanie problemów z analityką danych za pomocą RHadoop Ćwiczenia
Wstępne przetwarzanie i przygotowywanie danych
- Etapy przygotowania danych Ekstrakcja cech Czyszczenie danych Integracja i transformacja danych Redukcja danych – próbkowanie, wybór podzbioru cech, redukcja wymiarowości Dyskretyzacja i kategoryzacja Ćwiczenia i studium przypadku
Eksploracyjne metody analizy danych w R
- Statystyka opisowa Eksploracyjna analiza danych Wizualizacja – kroki wstępne Wizualizacja pojedynczej zmiennej Badanie wielu zmiennych Statystyczne metody oceny Testowanie hipotez Ćwiczenia i studium przypadku
Data Visualizations
- Podstawowe wizualizacje w R Pakiety do wizualizacji danych ggplot2, lattice, plotly, lattice Formatowanie wykresów w R Zaawansowane grafy Ćwiczenia
Regresja (szacowanie przyszłych wartości)
- Regresja liniowa Przypadki użycia Opis modelu Diagnostyka Problemy z regresją liniową Metody skurczu, regresja grzbietowa, lasso Uogólnienia i nieliniowość Splajny regresyjne Regresja wielomianowa lokalna Uogólnione modele addytywne Regresja z RHadoop Ćwiczenia i studium przypadku
Klasyfikacja
- Problemy związane z klasyfikacją Odświeżanie Bayesa Naiwny Bayes Regresja logistyczna K-najbliżsi sąsiedzi Algorytm drzew decyzyjnych Sieci neuronowe Maszyny wektorów nośnych Diagnostyka klasyfikatorów Porównanie metod klasyfikacji Scalable algorytmy klasyfikacji Ćwiczenia i studium przypadku
Ocena wydajności i wybór modelu
- Błąd systematyczny, wariancja i złożoność modelu Dokładność a interpretowalność Ocena klasyfikatorów Miary wydajności modelu/algorytmu Metoda wstrzymania walidacji Walidacja krzyżowa Dostrajanie algorytmów uczenia maszynowego za pomocą pakietu Caret Wizualizacja wydajności modelu za pomocą krzywych Profit ROC i Lift
Metody zespołowe
- Bagging Random Forest Wzmacnianie Ćwiczenia wzmacniające gradient i studium przypadku
Maszyny wektorów nośnych do klasyfikacji i regresji
- Klasyfikatory maksymalnego marginesu Klasyfikatory wektorów nośnych Maszyny wektorów nośnych SVM do problemów klasyfikacyjnych SVM do problemów regresji
Wybór cech do grupowania Algorytmy oparte na reprezentatywnych: k-średnich, k-medoidach Algorytmy hierarchiczne: metody aglomeracyjne i dzielące Algorytmy bazowe probabilistyki: EM Algorytmy oparte na gęstości: DBSCAN, DENCLUE Walidacja klastrów Zaawansowane koncepcje grupowania Grupowanie za pomocą ćwiczeń RHadoop i studium przypadku
- Odkrywanie połączeń dzięki analizie łączy
Koncepcje analizy linków Metryki do analizy sieci Algorytm Pagerank Algorytm wywołany hiperlinkami Temat Search Ćwiczenia z przewidywaniem linków i studium przypadku
- Wydobywanie wzorców skojarzeń
Model częstego eksploracji wzorców Scalaproblemy z funkcjonalnością częstego eksploracji wzorców Algorytmy Brute Force Algorytm Apriori Podejście do wzrostu FP Ocena reguł kandydujących Zastosowanie reguł asocjacyjnych Walidacja i testowanie Diagnostyka Reguły asocjacyjne z R i Hadoop Ćwiczenia i studium przypadku
- Budowa silników rekomendacji
Zrozumienie systemów rekomendacyjnych Techniki eksploracji danych stosowane w systemach rekomendacyjnych Systemy rekomendacyjne z pakietem rekomendacyjnym Ocena systemów rekomendacyjnych Rekomendacje za pomocą RHadoop Ćwiczenie: Budowa silnika rekomendacyjnego
- Analiza tekstu
Etapy analizy tekstu Zbieranie surowego tekstu Zbiór słów Termin Częstotliwość – Odwrotna częstotliwość dokumentu Określanie uczuć Ćwiczenia i studium przypadku
United Arab Emirates - Data Science for Big Data Analytics
Qatar - Data Science for Big Data Analytics
Egypt - Data Science for Big Data Analytics
Saudi Arabia - Data Science for Big Data Analytics
South Africa - Data Science for Big Data Analytics
Brasil - Data Science for Big Data Analytics
Canada - Data Science for Big Data Analytics
中国 - Data Science for Big Data Analytics
香港 - Data Science for Big Data Analytics
澳門 - Data Science for Big Data Analytics
台灣 - Data Science for Big Data Analytics
USA - Data Science for Big Data Analytics
Österreich - Data Science for Big Data Analytics
Schweiz - Data Science for Big Data Analytics
Deutschland - Data Science for Big Data Analytics
Czech Republic - Data Science for Big Data Analytics
Denmark - Data Science for Big Data Analytics
Estonia - Data Science for Big Data Analytics
Finland - Data Science for Big Data Analytics
Greece - Data Science for Big Data Analytics
Magyarország - Data Science for Big Data Analytics
Ireland - Data Science for Big Data Analytics
Luxembourg - Data Science for Big Data Analytics
Latvia - Data Science for Big Data Analytics
España - Ciencia de Datos para Big Data Analytics
Italia - Data Science for Big Data Analytics
Lithuania - Data Science for Big Data Analytics
Nederland - Data Science for Big Data Analytics
Norway - Data Science for Big Data Analytics
Portugal - Data Science for Big Data Analytics
România - Data Science for Big Data Analytics
Sverige - Data Science for Big Data Analytics
Türkiye - Data Science for Big Data Analytics
Malta - Data Science for Big Data Analytics
Belgique - Data Science for Big Data Analytics
France - Data Science for Big Data Analytics
日本 - Data Science for Big Data Analytics
Australia - Data Science for Big Data Analytics
Malaysia - Data Science for Big Data Analytics
New Zealand - Data Science for Big Data Analytics
Philippines - Data Science for Big Data Analytics
Singapore - Data Science for Big Data Analytics
Thailand - Data Science for Big Data Analytics
Vietnam - Data Science for Big Data Analytics
India - Data Science for Big Data Analytics
Argentina - Ciencia de Datos para Big Data Analytics
Chile - Ciencia de Datos para Big Data Analytics
Costa Rica - Ciencia de Datos para Big Data Analytics
Ecuador - Ciencia de Datos para Big Data Analytics
Guatemala - Ciencia de Datos para Big Data Analytics
Colombia - Ciencia de Datos para Big Data Analytics
México - Ciencia de Datos para Big Data Analytics
Panama - Ciencia de Datos para Big Data Analytics
Peru - Ciencia de Datos para Big Data Analytics
Uruguay - Ciencia de Datos para Big Data Analytics
Venezuela - Ciencia de Datos para Big Data Analytics
Polska - Data Science for Big Data Analytics
United Kingdom - Data Science for Big Data Analytics
South Korea - Data Science for Big Data Analytics
Pakistan - Data Science for Big Data Analytics
Sri Lanka - Data Science for Big Data Analytics
Bulgaria - Data Science for Big Data Analytics
Bolivia - Ciencia de Datos para Big Data Analytics
Indonesia - Data Science for Big Data Analytics
Kazakhstan - Data Science for Big Data Analytics
Moldova - Data Science for Big Data Analytics
Morocco - Data Science for Big Data Analytics
Tunisia - Data Science for Big Data Analytics
Kuwait - Data Science for Big Data Analytics
Oman - Data Science for Big Data Analytics
Slovakia - Data Science for Big Data Analytics
Kenya - Data Science for Big Data Analytics
Nigeria - Data Science for Big Data Analytics
Botswana - Data Science for Big Data Analytics
Slovenia - Data Science for Big Data Analytics
Croatia - Data Science for Big Data Analytics
Serbia - Data Science for Big Data Analytics
Bhutan - Data Science for Big Data Analytics