Course Code: bdbiga
Duration: 35 hours
Prerequisites:

1. Should have basic knowledge of business operation and data systems in Govt. in their domain 2. Must have basic understanding of SQL/Oracle or relational database 3. Basic understanding of Statistics ( in Spreadsheet level)

Overview:

Postęp technologiczny i rosnąca ilość informacji zmieniają sposób prowadzenia biznesu w wielu branżach, w tym w sektorze rządowym. Tempo generowania danych przez rząd i ich cyfrowe archiwizowanie rośnie w związku z szybkim rozwojem urządzeń i aplikacji mobilnych, inteligentnych czujników i urządzeń, rozwiązań chmurowych oraz portali dla obywateli. W miarę jak informacje cyfrowe rozszerzają się i stają się bardziej złożone, zarządzanie, przetwarzanie, przechowywanie, bezpieczeństwo i utylizacja danych również stają się bardziej skomplikowane. Nowe narzędzia do pozyskiwania, wyszukiwania, odkrywania i analizy pomagają organizacjom czerpać wnioski z ich nieustrukturyzowanych danych. Rynek rządowy znajduje się w punkcie zwrotnym, uświadamiając sobie, że informacje są strategicznym aktywem, a rząd musi chronić, wykorzystywać i analizować zarówno dane strukturalne, jak i nieustrukturyzowane, aby lepiej służyć i spełniać wymagania misji. W miarę jak liderzy rządowi dążą do przekształcenia organizacji w oparte na danych, aby skutecznie realizować misje, kładą podwaliny pod korelację zależności między zdarzeniami, ludźmi, procesami i informacjami.

Wysokowartościowe rozwiązania rządowe będą tworzone z połączenia najbardziej innowacyjnych technologii:

  • Urządzenia i aplikacje mobilne
  • Usługi chmurowe
  • Technologie społecznościowe i sieciowe
  • Big Data i analityka

Big Data to jedno z inteligentnych rozwiązań przemysłowych, które pozwala rządowi podejmować lepsze decyzje, działając na podstawie wzorców ujawnionych przez analizę dużych ilości danych – powiązanych i niepowiązanych, strukturalnych i nieustrukturyzowanych.

Jednak osiągnięcie tych celów wymaga znacznie więcej niż tylko gromadzenia ogromnych ilości danych. „Zrozumienie tych ilości Big Data wymaga najnowocześniejszych narzędzi i technologii, które mogą analizować i wydobywać użyteczną wiedzę z ogromnych i różnorodnych strumieni informacji” – napisali Tom Kalil i Fen Zhao z Biura Polityki Naukowej i Technologicznej Białego Domu w poście na blogu OSTP.

Biały Dom podjął krok w kierunku pomocy agencjom w znalezieniu tych technologii, ustanawiając w 2012 roku Narodową Inicjatywę Badawczo-Rozwojową Big Data. Inicjatywa ta obejmowała ponad 200 milionów dolarów na maksymalne wykorzystanie eksplozji Big Data i narzędzi potrzebnych do jej analizy.

Wyzwania, jakie stawia Big Data, są niemal tak zniechęcające, jak obiecujące są jej perspektywy. Jednym z tych wyzwań jest efektywne przechowywanie danych. Jak zawsze, budżety są ograniczone, więc agencje muszą minimalizować koszt przechowywania na megabajt i zapewnić łatwy dostęp do danych, aby użytkownicy mogli je uzyskać, kiedy chcą i w potrzebnej formie. Tworzenie kopii zapasowych ogromnych ilości danych dodatkowo zwiększa to wyzwanie.

Skuteczna analiza danych to kolejne duże wyzwanie. Wiele agencji wykorzystuje komercyjne narzędzia, które pozwalają im przeszukiwać góry danych, wykrywając trendy, które mogą pomóc im działać bardziej efektywnie. (Ostatnie badanie przeprowadzone przez MeriTalk wykazało, że federalni dyrektorzy IT uważają, że Big Data może pomóc agencjom zaoszczędzić ponad 500 miliardów dolarów, jednocześnie realizując cele misji.).

Niestandardowe narzędzia Big Data również pozwalają agencjom zaspokoić potrzebę analizy ich danych. Na przykład, Grupa Analityki Danych Obliczeniowych Oak Ridge National Laboratory udostępniła swój system analizy danych Piranha innym agencjom. System ten pomógł badaczom medycznym znaleźć związek, który może ostrzegać lekarzy o tętniakach aorty, zanim one wystąpią. Jest również używany do bardziej przyziemnych zadań, takich jak przeszukiwanie życiorysów w celu połączenia kandydatów z menedżerami ds. zatrudnienia.

Course Outline:

Każda sesja trwa 2 godziny

Dzień 1: Sesja 1: Przegląd biznesowy – dlaczego Big Data Business Intelligence w rządzie

  • Studia przypadków z NIH, DoE
  • Tempo adaptacji Big Data w agencjach rządowych i jak dostosowują one swoje przyszłe operacje wokół predykcyjnej analityki Big Data
  • Szerokie obszary zastosowań w DoD, NSA, IRS, USDA itp.
  • Integracja Big Data z danymi legacy
  • Podstawowe zrozumienie technologii umożliwiających predykcyjną analitykę
  • Integracja danych i wizualizacja na dashboardach
  • Zarządzanie oszustwami
  • Generowanie reguł biznesowych/wykrywanie oszustw
  • Wykrywanie i profilowanie zagrożeń
  • Analiza kosztów i korzyści wdrożenia Big Data

Dzień 1: Sesja 2: Wprowadzenie do Big Data-1

  • Główne cechy Big Data – objętość, różnorodność, szybkość i wiarygodność. Architektura MPP dla objętości.
  • Magazyny danych – statyczny schemat, wolno ewoluujący zbiór danych
  • Bazy danych MPP, takie jak Greenplum, Exadata, Teradata, Netezza, Vertica itp.
  • Rozwiązania oparte na Hadoop – brak warunków dotyczących struktury zbioru danych.
  • Typowy wzorzec: HDFS, MapReduce (przetwarzanie), pobieranie z HDFS
  • Przetwarzanie wsadowe – odpowiednie do analiz/nieinteraktywnych
  • Objętość: strumieniowe dane CEP
  • Typowe wybory – produkty CEP (np. Infostreams, Apama, MarkLogic itp.)
  • Mniej gotowe do produkcji – Storm/S4
  • Bazy danych NoSQL – (kolumnowe i klucz-wartość): najlepiej nadające się jako analityczne uzupełnienie magazynu danych/bazy danych

Dzień 1: Sesja 3: Wprowadzenie do Big Data-2

Rozwiązania NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Hierarchiczny) - GT.m, Cache
  • KV Store (Uporządkowany) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Baza danych obiektowych - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Różnorodność danych: Wprowadzenie do problemów z czyszczeniem danych w Big Data

  • RDBMS – statyczna struktura/schemat, nie sprzyja elastycznemu, eksploracyjnemu środowisku.
  • NoSQL – częściowo ustrukturyzowane, wystarczająca struktura do przechowywania danych bez dokładnego schematu przed zapisem danych
  • Problemy z czyszczeniem danych

Dzień 1: Sesja 4: Wprowadzenie do Big Data-3: Hadoop

  • Kiedy wybrać Hadoop?
  • STRUKTURALNE – Magazyny danych/bazy danych przedsiębiorstw mogą przechowywać ogromne ilości danych (za koszt), ale narzucają strukturę (nie dobre do aktywnej eksploracji)
  • Dane CZĘŚCIOWO STRUKTURALNE – trudne do realizacji za pomocą tradycyjnych rozwiązań (DW/DB)
  • Magazynowanie danych = OGROMNY wysiłek i statyczne nawet po wdrożeniu
  • Dla różnorodności i objętości danych, przetwarzane na sprzęcie klasy konsumenckiej – HADOOP
  • Potrzebny sprzęt klasy konsumenckiej do utworzenia klastra Hadoop

Wprowadzenie do Map Reduce/HDFS

  • MapReduce – rozproszone przetwarzanie na wielu serwerach
  • HDFS – udostępnienie danych lokalnie dla procesu przetwarzania (z redundancją)
  • Dane – mogą być nieustrukturyzowane/bez schematu (w przeciwieństwie do RDBMS)
  • Odpowiedzialność programisty za nadanie sensu danym
  • Programowanie MapReduce = praca z Javą (zalety/wady), ręczne ładowanie danych do HDFS

Dzień 2: Sesja 1: Ekosystem Big Data – Budowanie ETL dla Big Data: wszechświat narzędzi Big Data – które wybrać i kiedy?

  • Hadoop vs. inne rozwiązania NoSQL
  • Do interaktywnego, losowego dostępu do danych
  • Hbase (baza danych kolumnowa) na bazie Hadoop
  • Losowy dostęp do danych, ale z narzuconymi ograniczeniami (maks. 1 PB)
  • Nie nadaje się do ad-hoc analiz, dobre do logowania, zliczania, szeregów czasowych
  • Sqoop – Import z baz danych do Hive lub HDFS (dostęp JDBC/ODBC)
  • Flume – Przesyłanie danych (np. logów) do HDFS

Dzień 2: Sesja 2: System zarządzania Big Data

  • Ruchome części, uruchamianie/awarie węzłów obliczeniowych: ZooKeeper – Do konfiguracji/koordynacji/usług nazewnictwa
  • Złożony pipeline/przepływ pracy: Oozie – zarządzanie przepływem pracy, zależnościami, łańcuchami
  • Wdrażanie, konfiguracja, zarządzanie klastrami, aktualizacje itp. (administracja systemem): Ambari
  • W chmurze: Whirr

Dzień 2: Sesja 3: Analityka predykcyjna w Business Intelligence -1: Podstawowe techniki i BI oparte na uczeniu maszynowym:

  • Wprowadzenie do uczenia maszynowego
  • Techniki klasyfikacji
  • Predykcja Bayesa – przygotowanie pliku treningowego
  • Maszyna wektorów nośnych
  • Algebra KNN p-Tree i wydobywanie pionowe
  • Sieci neuronowe
  • Problem dużych zmiennych w Big Data – Random forest (RF)
  • Problem automatyzacji w Big Data – Multi-model ensemble RF
  • Automatyzacja przez Soft10-M
  • Narzędzie do analizy tekstu – Treeminer
  • Agile learning
  • Uczenie oparte na agentach
  • Uczenie rozproszone
  • Wprowadzenie do narzędzi open source do analizy predykcyjnej: R, Rapidminer, Mahut

Dzień 2: Sesja 4 Ekosystem analityki predykcyjnej-2: Typowe problemy analityki predykcyjnej w rządzie

  • Analityka wglądu
  • Analityka wizualizacji
  • Strukturalna analityka predykcyjna
  • Nieustrukturyzowana analityka predykcyjna
  • Profilowanie zagrożeń/oszustw/dostawców
  • Silnik rekomendacji
  • Wykrywanie wzorców
  • Odkrywanie reguł/scenariuszy – awarie, oszustwa, optymalizacja
  • Odkrywanie przyczyn źródłowych
  • Analiza sentymentu
  • Analityka CRM
  • Analityka sieciowa
  • Analityka tekstu
  • Przegląd wspomagany technologią
  • Analityka oszustw
  • Analityka w czasie rzeczywistym

Dzień 3: Sesja 1: Analityka w czasie rzeczywistym i skalowalna na bazie Hadoop

  • Dlaczego typowe algorytmy analityczne zawodzą w Hadoop/HDFS
  • Apache Hama – do masowego synchronicznego przetwarzania rozproszonego
  • Apache SPARK – do przetwarzania klastrowego w czasie rzeczywistym
  • CMU Graphics Lab2 – Graficzne asynchroniczne podejście do przetwarzania rozproszonego
  • Podejście oparte na algebrze KNN p-Tree z Treeminer do obniżenia kosztów sprzętowych operacji

Dzień 3: Sesja 2: Narzędzia do eDiscovery i forensyki

  • eDiscovery na Big Data vs. dane legacy – porównanie kosztów i wydajności
  • Przewidujące kodowanie i przegląd wspomagany technologią (TAR)
  • Demo na żywo produktu TAR (vMiner), aby zrozumieć, jak TAR działa na szybsze odkrycie
  • Szybsze indeksowanie przez HDFS – szybkość danych
  • NLP lub przetwarzanie języka naturalnego – różne techniki i produkty open source
  • eDiscovery w językach obcych – technologia przetwarzania języków obcych

Dzień 3: Sesja 3: Big Data BI dla cyberbezpieczeństwa – Zrozumienie pełnego 360-stopniowego widoku szybkiego gromadzenia danych do identyfikacji zagrożeń

  • Zrozumienie podstaw analityki bezpieczeństwa – powierzchnia ataku, błędna konfiguracja bezpieczeństwa, obrona hosta
  • Infrastruktura sieciowa/ Duże rury danych/ ETL odpowiedzi do analizy w czasie rzeczywistym
  • Preskryptywna vs predykcyjna – Stałe reguły vs automatyczne odkrywanie reguł zagrożeń z metadanych

Dzień 3: Sesja 4: Big Data w USDA: Zastosowania w rolnictwie

  • Wprowadzenie do IoT (Internetu Rzeczy) dla rolnictwa – Big Data oparte na czujnikach i kontrola
  • Wprowadzenie do obrazowania satelitarnego i jego zastosowań w rolnictwie
  • Integracja danych z czujników i obrazów dla żyzności gleby, rekomendacji upraw i prognozowania
  • Ubezpieczenia rolnicze i Big Data
  • Prognozowanie strat w uprawach

Dzień 4: Sesja 1: Zapobieganie oszustwom w BI z Big Data w rządzie – Analityka oszustw:

  • Podstawowa klasyfikacja analityki oszustw – oparte na regułach vs predykcyjna
  • Nadzorowane vs nienadzorowane uczenie maszynowe do wykrywania wzorców oszustw
  • Oszustwa dostawców/przecenianie projektów
  • Oszustwa Medicare i Medicaid – techniki wykrywania oszustw w procesie rozliczeń
  • Oszustwa związane z refundacją podróży
  • Oszustwa zwrotów IRS
  • Studia przypadków i demo na żywo będą prezentowane tam, gdzie dostępne są dane.

Dzień 4: Sesja 2: Analityka mediów społecznościowych – Gromadzenie i analiza informacji

  • API ETL Big Data do ekstrakcji danych z mediów społecznościowych
  • Tekst, obrazy, metadane i wideo
  • Analiza sentymentu z kanałów mediów społecznościowych
  • Kontekstowe i niekontekstowe filtrowanie kanałów mediów społecznościowych
  • Dashboard mediów społecznościowych do integracji różnych mediów społecznościowych
  • Automatyczne profilowanie profili mediów społecznościowych
  • Demo na żywo każdej analityki będzie prezentowane za pomocą narzędzia Treeminer.

Dzień 4: Sesja 3: Analityka Big Data w przetwarzaniu obrazów i strumieni wideo

  • Techniki przechowywania obrazów w Big Data – Rozwiązania do przechowywania danych przekraczających petabajty
  • LTFS i LTO
  • GPFS-LTFS (Warstwowe rozwiązanie do przechowywania dużych danych obrazowych)
  • Podstawy analityki obrazów
  • Rozpoznawanie obiektów
  • Segmentacja obrazów
  • Śledzenie ruchu
  • Rekonstrukcja obrazów 3D

Dzień 4: Sesja 4: Zastosowania Big Data w NIH:

  • Nowe obszary bioinformatyki
  • Metagenomika i problemy z wydobywaniem Big Data
  • Analityka predykcyjna Big Data dla farmakogenomiki, metabolomiki i proteomiki
  • Big Data w procesach genomiki w dół rzeki
  • Zastosowanie predykcyjnej analityki Big Data w zdrowiu publicznym

Dashboard Big Data dla szybkiego dostępu do różnych danych i wyświetlania:

  • Integracja istniejącej platformy aplikacyjnej z dashboardem Big Data
  • Zarządzanie Big Data
  • Studium przypadku dashboardu Big Data: Tableau i Pentaho
  • Użyj aplikacji Big Data do oferowania usług opartych na lokalizacji w rządzie.
  • System śledzenia i zarządzania

Dzień 5: Sesja 1: Jak uzasadnić wdrożenie Big Data BI w organizacji:

  • Definiowanie ROI dla wdrożenia Big Data
  • Studia przypadków oszczędzania czasu analityków na zbieranie i przygotowanie danych – wzrost produktywności
  • Studia przypadków zysków z oszczędności kosztów licencjonowanych baz danych
  • Zyski z usług opartych na lokalizacji
  • Oszczędności z zapobiegania oszustwom
  • Zintegrowane podejście do arkusza kalkulacyjnego do obliczania przybliżonych kosztów vs. zysków/oszczędności z wdrożenia Big Data.

Dzień 5: Sesja 2: Krok po kroku procedura zastąpienia systemu danych legacy systemem Big Data:

  • Zrozumienie praktycznej mapy drogowej migracji Big Data
  • Jakie są ważne informacje potrzebne przed architekturą wdrożenia Big Data
  • Jakie są różne sposoby obliczania objętości, szybkości, różnorodności i wiarygodności danych
  • Jak oszacować wzrost danych
  • Studia przypadków

Dzień 5: Sesja 4: Przegląd dostawców Big Data i przegląd ich produktów. Sesja Q/A:

  • Accenture
  • APTEAN (dawniej CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (dawniej 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (część EMC)

Sites Published:

United Arab Emirates - Big Data Business Intelligence for Govt. Agencies

Qatar - Big Data Business Intelligence for Govt. Agencies

Egypt - Big Data Business Intelligence for Govt. Agencies

Saudi Arabia - Big Data Business Intelligence for Govt. Agencies

South Africa - Big Data Business Intelligence for Govt. Agencies

Brasil - Inteligência de Negócios Big Data para Agências do Governo

Canada - Big Data Business Intelligence for Govt. Agencies

中国 - 面向政府机构的大数据商业智能

香港 - Big Data Business Intelligence for Govt. Agencies

澳門 - Big Data Business Intelligence for Govt. Agencies

台灣 - Big Data Business Intelligence for Govt. Agencies

USA - Big Data Business Intelligence for Govt. Agencies

Österreich - Big Data Business Intelligence for Govt. Agencies

Schweiz - Big Data Business Intelligence for Govt. Agencies

Deutschland - Big Data Business Intelligence for Govt. Agencies

Czech Republic - Big Data Business Intelligence pro státní orgány

Denmark - Big Data Business Intelligence for Govt. Agencies

Estonia - Big Data Business Intelligence for Govt. Agencies

Finland - Big Data Business Intelligence for Govt. Agencies

Greece - Μεγάλα Δεδομένα Επιχειρησιακή Νοηματική για Κυβερνητικές Αρχές

Magyarország - Big Data Üzleti Intelligencia Kormányzati Szervezeteknek

Ireland - Big Data Business Intelligence for Govt. Agencies

Luxembourg - Big Data Business Intelligence for Govt. Agencies

Latvia - Big Data Business Intelligence for Govt. Agencies

España - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Italia - Intelligenza Aziendale Big Data per le Agenzie Governative

Lithuania - Big Data Business Intelligence for Govt. Agencies

Nederland - Big Data Business Intelligence voor Overheidsinstanties

Norway - Big Data Business Intelligence for Govt. Agencies

Portugal - Inteligência de Negócios Big Data para Agências do Governo

România - Inteligența de Business pe Date Mari pentru Agențiile Guvernamentale

Sverige - Big Data Business Intelligence för regeringsorgan

Türkiye - Hükümet Kurumları için Büyük Veri İşletme Zekası

Malta - Big Data Business Intelligence for Govt. Agencies

Belgique - Intelligence d'affaires Big Data pour les agences gouvernementales

France - Intelligence d'affaires Big Data pour les agences gouvernementales

日本 - 政府機関向けの大規模データビジネスインテリジェンス

Australia - Big Data Business Intelligence for Govt. Agencies

Malaysia - Big Data Business Intelligence for Govt. Agencies

New Zealand - Big Data Business Intelligence for Govt. Agencies

Philippines - Big Data Business Intelligence for Govt. Agencies

Singapore - Big Data Business Intelligence for Govt. Agencies

Thailand - Big Data Business Intelligence for Govt. Agencies

Vietnam - Trí tuệ kinh doanh Big Data cho các cơ quan chính phủ

India - Big Data Business Intelligence for Govt. Agencies

Argentina - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Chile - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Costa Rica - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Ecuador - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Guatemala - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Colombia - Inteligencia de Negocios de Big Data para Agencias del Gobierno

México - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Panama - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Peru - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Uruguay - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Venezuela - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Polska - Big Data Business Intelligence for Govt. Agencies

United Kingdom - Big Data Business Intelligence for Govt. Agencies

South Korea - 정부 기관을 위한 빅 데이터 비즈니스 인텔리전스

Pakistan - Big Data Business Intelligence for Govt. Agencies

Sri Lanka - Big Data Business Intelligence for Govt. Agencies

Bulgaria - Бизнес интелигентност с Big Data за държавни агенции

Bolivia - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Indonesia - Big Data Business Intelligence for Govt. Agencies

Kazakhstan - Big Data Business Intelligence for Govt. Agencies

Moldova - Inteligența de Business pe Date Mari pentru Agențiile Guvernamentale

Morocco - Big Data Business Intelligence for Govt. Agencies

Tunisia - Big Data Business Intelligence for Govt. Agencies

Kuwait - Big Data Business Intelligence for Govt. Agencies

Oman - Big Data Business Intelligence for Govt. Agencies

Slovakia - Big Data Business Intelligence for Govt. Agencies

Kenya - Big Data Business Intelligence for Govt. Agencies

Nigeria - Big Data Business Intelligence for Govt. Agencies

Botswana - Big Data Business Intelligence for Govt. Agencies

Slovenia - Big Data Business Intelligence for Govt. Agencies

Croatia - Big Data Business Intelligence for Govt. Agencies

Serbia - Big Data Business Intelligence for Govt. Agencies

Bhutan - Big Data Business Intelligence for Govt. Agencies

Nepal - Big Data Business Intelligence for Govt. Agencies

Uzbekistan - Big Data Business Intelligence for Govt. Agencies

US Government - Big Data Business Intelligence for Govt. Agencies