Course Code: dsbda
Duration: 35 hours
Overview:

Big data to zbiory danych, które są tak obszerne i złożone, że tradycyjne aplikacje do przetwarzania danych nie są w stanie sobie z nimi poradzić. Wyzwania związane z dużymi zbiorami danych obejmują przechwytywanie danych, przechowywanie danych, analizę danych, wyszukiwanie, udostępnianie, przesyłanie, wizualizację, zapytania, aktualizację i prywatność informacji.

Course Outline:

Wprowadzenie do Data Science for Big Data Analytics

    Data Science Przegląd Big Data Przegląd Struktury danych Czynniki i złożoność Big Data Ekosystem Big Data oraz nowe podejście do analityki Kluczowe technologie w procesie i problemach eksploracji dużych zbiorów danych Wyszukiwanie wzorców asocjacji Klastrowanie danych Wykrywanie wartości odstających Klasyfikacja danych

Wprowadzenie do cyklu życia analizy danych

    Odkrycie Przygotowanie danych Planowanie modelu Budowa modelu Prezentacja/Communication wyników Operacjonalizacja Ćwiczenie: Studium przypadku

Od tego momentu większość czasu szkolenia (80%) będzie poświęcona przykładom i ćwiczeniom z R i powiązanej technologii Big Data.

Pierwsze kroki z R

    Instalowanie funkcji R i Rstudio Obiekty języka R w danych R w języku R Manipulacja danymi Zagadnienia dotyczące dużych zbiorów danych Ćwiczenia

Pierwsze kroki z Hadoop

    Instalacja Hadoop Zrozumienie Hadoop trybów Architektura HDFS MapReduce Hadoop przegląd powiązanych projektów Pisanie programów w Hadoop Ćwiczenia MapReduce

Całkowanie R i Hadoop z RHadoop

    Komponenty RHadoop Instalacja RHadoop i łączenie się z Hadoop Architektura RHadoop Hadoop strumieniowanie za pomocą R Rozwiązywanie problemów z analityką danych za pomocą RHadoop Ćwiczenia

Wstępne przetwarzanie i przygotowywanie danych

    Etapy przygotowania danych Ekstrakcja cech Czyszczenie danych Integracja i transformacja danych Redukcja danych – próbkowanie, wybór podzbioru cech, redukcja wymiarowości Dyskretyzacja i kategoryzacja Ćwiczenia i studium przypadku

Eksploracyjne metody analizy danych w R

    Statystyka opisowa Eksploracyjna analiza danych Wizualizacja – kroki wstępne Wizualizacja pojedynczej zmiennej Badanie wielu zmiennych Statystyczne metody oceny Testowanie hipotez Ćwiczenia i studium przypadku

Data Visualizations

    Podstawowe wizualizacje w R Pakiety do wizualizacji danych ggplot2, lattice, plotly, lattice Formatowanie wykresów w R Zaawansowane grafy Ćwiczenia

Regresja (szacowanie przyszłych wartości)

    Regresja liniowa Przypadki użycia Opis modelu Diagnostyka Problemy z regresją liniową Metody skurczu, regresja grzbietowa, lasso Uogólnienia i nieliniowość Splajny regresyjne Regresja wielomianowa lokalna Uogólnione modele addytywne Regresja z RHadoop Ćwiczenia i studium przypadku

Klasyfikacja

    Problemy związane z klasyfikacją Odświeżanie Bayesa Naiwny Bayes Regresja logistyczna K-najbliżsi sąsiedzi Algorytm drzew decyzyjnych Sieci neuronowe Maszyny wektorów nośnych Diagnostyka klasyfikatorów Porównanie metod klasyfikacji Scalable algorytmy klasyfikacji Ćwiczenia i studium przypadku

Ocena wydajności i wybór modelu

    Błąd systematyczny, wariancja i złożoność modelu Dokładność a interpretowalność Ocena klasyfikatorów Miary wydajności modelu/algorytmu Metoda wstrzymania walidacji Walidacja krzyżowa Dostrajanie algorytmów uczenia maszynowego za pomocą pakietu Caret Wizualizacja wydajności modelu za pomocą krzywych Profit ROC i Lift

Metody zespołowe

    Bagging Random Forest Wzmacnianie Ćwiczenia wzmacniające gradient i studium przypadku

Maszyny wektorów nośnych do klasyfikacji i regresji

    Klasyfikatory maksymalnego marginesu Klasyfikatory wektorów nośnych Maszyny wektorów nośnych SVM do problemów klasyfikacyjnych SVM do problemów regresji
  • Identyfikowanie nieznanych grup w zbiorze danych
  • Wybór cech do grupowania Algorytmy oparte na reprezentatywnych: k-średnich, k-medoidach Algorytmy hierarchiczne: metody aglomeracyjne i dzielące Algorytmy bazowe probabilistyki: EM Algorytmy oparte na gęstości: DBSCAN, DENCLUE Walidacja klastrów Zaawansowane koncepcje grupowania Grupowanie za pomocą ćwiczeń RHadoop i studium przypadku

      Odkrywanie połączeń dzięki analizie łączy

    Koncepcje analizy linków Metryki do analizy sieci Algorytm Pagerank Algorytm wywołany hiperlinkami Temat Search Ćwiczenia z przewidywaniem linków i studium przypadku

      Wydobywanie wzorców skojarzeń

    Model częstego eksploracji wzorców Scalaproblemy z funkcjonalnością częstego eksploracji wzorców Algorytmy Brute Force Algorytm Apriori Podejście do wzrostu FP Ocena reguł kandydujących Zastosowanie reguł asocjacyjnych Walidacja i testowanie Diagnostyka Reguły asocjacyjne z R i Hadoop Ćwiczenia i studium przypadku

      Budowa silników rekomendacji

    Zrozumienie systemów rekomendacyjnych Techniki eksploracji danych stosowane w systemach rekomendacyjnych Systemy rekomendacyjne z pakietem rekomendacyjnym Ocena systemów rekomendacyjnych Rekomendacje za pomocą RHadoop Ćwiczenie: Budowa silnika rekomendacyjnego

      Analiza tekstu

    Etapy analizy tekstu Zbieranie surowego tekstu Zbiór słów Termin Częstotliwość – Odwrotna częstotliwość dokumentu Określanie uczuć Ćwiczenia i studium przypadku

    Sites Published:

    United Arab Emirates - Data Science for Big Data Analytics

    Qatar - Data Science for Big Data Analytics

    Egypt - Data Science for Big Data Analytics

    Saudi Arabia - Data Science for Big Data Analytics

    South Africa - Data Science for Big Data Analytics

    Brasil - Data Science for Big Data Analytics

    Canada - Data Science for Big Data Analytics

    中国 - Data Science for Big Data Analytics

    香港 - Data Science for Big Data Analytics

    澳門 - Data Science for Big Data Analytics

    台灣 - Data Science for Big Data Analytics

    USA - Data Science for Big Data Analytics

    Österreich - Data Science for Big Data Analytics

    Schweiz - Data Science for Big Data Analytics

    Deutschland - Data Science for Big Data Analytics

    Czech Republic - Data Science for Big Data Analytics

    Denmark - Data Science for Big Data Analytics

    Estonia - Data Science for Big Data Analytics

    Finland - Data Science for Big Data Analytics

    Greece - Data Science for Big Data Analytics

    Magyarország - Data Science for Big Data Analytics

    Ireland - Data Science for Big Data Analytics

    Luxembourg - Data Science for Big Data Analytics

    Latvia - Data Science for Big Data Analytics

    España - Ciencia de Datos para Big Data Analytics

    Italia - Data Science for Big Data Analytics

    Lithuania - Data Science for Big Data Analytics

    Nederland - Data Science for Big Data Analytics

    Norway - Data Science for Big Data Analytics

    Portugal - Data Science for Big Data Analytics

    România - Data Science for Big Data Analytics

    Sverige - Data Science for Big Data Analytics

    Türkiye - Data Science for Big Data Analytics

    Malta - Data Science for Big Data Analytics

    Belgique - Data Science for Big Data Analytics

    France - Data Science for Big Data Analytics

    日本 - Data Science for Big Data Analytics

    Australia - Data Science for Big Data Analytics

    Malaysia - Data Science for Big Data Analytics

    New Zealand - Data Science for Big Data Analytics

    Philippines - Data Science for Big Data Analytics

    Singapore - Data Science for Big Data Analytics

    Thailand - Data Science for Big Data Analytics

    Vietnam - Data Science for Big Data Analytics

    India - Data Science for Big Data Analytics

    Argentina - Ciencia de Datos para Big Data Analytics

    Chile - Ciencia de Datos para Big Data Analytics

    Costa Rica - Ciencia de Datos para Big Data Analytics

    Ecuador - Ciencia de Datos para Big Data Analytics

    Guatemala - Ciencia de Datos para Big Data Analytics

    Colombia - Ciencia de Datos para Big Data Analytics

    México - Ciencia de Datos para Big Data Analytics

    Panama - Ciencia de Datos para Big Data Analytics

    Peru - Ciencia de Datos para Big Data Analytics

    Uruguay - Ciencia de Datos para Big Data Analytics

    Venezuela - Ciencia de Datos para Big Data Analytics

    Polska - Data Science for Big Data Analytics

    United Kingdom - Data Science for Big Data Analytics

    South Korea - Data Science for Big Data Analytics

    Pakistan - Data Science for Big Data Analytics

    Sri Lanka - Data Science for Big Data Analytics

    Bulgaria - Data Science for Big Data Analytics

    Bolivia - Ciencia de Datos para Big Data Analytics

    Indonesia - Data Science for Big Data Analytics

    Kazakhstan - Data Science for Big Data Analytics

    Moldova - Data Science for Big Data Analytics

    Morocco - Data Science for Big Data Analytics

    Tunisia - Data Science for Big Data Analytics

    Kuwait - Data Science for Big Data Analytics

    Oman - Data Science for Big Data Analytics

    Slovakia - Data Science for Big Data Analytics

    Kenya - Data Science for Big Data Analytics

    Nigeria - Data Science for Big Data Analytics

    Botswana - Data Science for Big Data Analytics

    Slovenia - Data Science for Big Data Analytics

    Croatia - Data Science for Big Data Analytics

    Serbia - Data Science for Big Data Analytics

    Bhutan - Data Science for Big Data Analytics

    Nepal - Data Science for Big Data Analytics

    Uzbekistan - Data Science for Big Data Analytics