Course Code: bdbiga
Duration: 35 hours
Prerequisites:
1. Should have basic knowledge of business operation and data systems in Govt. in their domain 2. Must have basic understanding of SQL/Oracle or relational database 3. Basic understanding of Statistics ( in Spreadsheet level)
Overview:
Postęp technologiczny i rosnąca ilość informacji zmieniają sposób prowadzenia biznesu w wielu branżach, w tym w sektorze rządowym. Tempo generowania danych przez rząd i ich cyfrowe archiwizowanie rośnie w związku z szybkim rozwojem urządzeń i aplikacji mobilnych, inteligentnych czujników i urządzeń, rozwiązań chmurowych oraz portali dla obywateli. W miarę jak informacje cyfrowe rozszerzają się i stają się bardziej złożone, zarządzanie, przetwarzanie, przechowywanie, bezpieczeństwo i utylizacja danych również stają się bardziej skomplikowane. Nowe narzędzia do pozyskiwania, wyszukiwania, odkrywania i analizy pomagają organizacjom czerpać wnioski z ich nieustrukturyzowanych danych. Rynek rządowy znajduje się w punkcie zwrotnym, uświadamiając sobie, że informacje są strategicznym aktywem, a rząd musi chronić, wykorzystywać i analizować zarówno dane strukturalne, jak i nieustrukturyzowane, aby lepiej służyć i spełniać wymagania misji. W miarę jak liderzy rządowi dążą do przekształcenia organizacji w oparte na danych, aby skutecznie realizować misje, kładą podwaliny pod korelację zależności między zdarzeniami, ludźmi, procesami i informacjami.
Wysokowartościowe rozwiązania rządowe będą tworzone z połączenia najbardziej innowacyjnych technologii:
- Urządzenia i aplikacje mobilne
- Usługi chmurowe
- Technologie społecznościowe i sieciowe
- Big Data i analityka
Big Data to jedno z inteligentnych rozwiązań przemysłowych, które pozwala rządowi podejmować lepsze decyzje, działając na podstawie wzorców ujawnionych przez analizę dużych ilości danych – powiązanych i niepowiązanych, strukturalnych i nieustrukturyzowanych.
Jednak osiągnięcie tych celów wymaga znacznie więcej niż tylko gromadzenia ogromnych ilości danych. „Zrozumienie tych ilości Big Data wymaga najnowocześniejszych narzędzi i technologii, które mogą analizować i wydobywać użyteczną wiedzę z ogromnych i różnorodnych strumieni informacji” – napisali Tom Kalil i Fen Zhao z Biura Polityki Naukowej i Technologicznej Białego Domu w poście na blogu OSTP.
Biały Dom podjął krok w kierunku pomocy agencjom w znalezieniu tych technologii, ustanawiając w 2012 roku Narodową Inicjatywę Badawczo-Rozwojową Big Data. Inicjatywa ta obejmowała ponad 200 milionów dolarów na maksymalne wykorzystanie eksplozji Big Data i narzędzi potrzebnych do jej analizy.
Wyzwania, jakie stawia Big Data, są niemal tak zniechęcające, jak obiecujące są jej perspektywy. Jednym z tych wyzwań jest efektywne przechowywanie danych. Jak zawsze, budżety są ograniczone, więc agencje muszą minimalizować koszt przechowywania na megabajt i zapewnić łatwy dostęp do danych, aby użytkownicy mogli je uzyskać, kiedy chcą i w potrzebnej formie. Tworzenie kopii zapasowych ogromnych ilości danych dodatkowo zwiększa to wyzwanie.
Skuteczna analiza danych to kolejne duże wyzwanie. Wiele agencji wykorzystuje komercyjne narzędzia, które pozwalają im przeszukiwać góry danych, wykrywając trendy, które mogą pomóc im działać bardziej efektywnie. (Ostatnie badanie przeprowadzone przez MeriTalk wykazało, że federalni dyrektorzy IT uważają, że Big Data może pomóc agencjom zaoszczędzić ponad 500 miliardów dolarów, jednocześnie realizując cele misji.).
Niestandardowe narzędzia Big Data również pozwalają agencjom zaspokoić potrzebę analizy ich danych. Na przykład, Grupa Analityki Danych Obliczeniowych Oak Ridge National Laboratory udostępniła swój system analizy danych Piranha innym agencjom. System ten pomógł badaczom medycznym znaleźć związek, który może ostrzegać lekarzy o tętniakach aorty, zanim one wystąpią. Jest również używany do bardziej przyziemnych zadań, takich jak przeszukiwanie życiorysów w celu połączenia kandydatów z menedżerami ds. zatrudnienia.
Course Outline:
Każda sesja trwa 2 godziny
Dzień 1: Sesja 1: Przegląd biznesowy – dlaczego Big Data Business Intelligence w rządzie
- Studia przypadków z NIH, DoE
- Tempo adaptacji Big Data w agencjach rządowych i jak dostosowują one swoje przyszłe operacje wokół predykcyjnej analityki Big Data
- Szerokie obszary zastosowań w DoD, NSA, IRS, USDA itp.
- Integracja Big Data z danymi legacy
- Podstawowe zrozumienie technologii umożliwiających predykcyjną analitykę
- Integracja danych i wizualizacja na dashboardach
- Zarządzanie oszustwami
- Generowanie reguł biznesowych/wykrywanie oszustw
- Wykrywanie i profilowanie zagrożeń
- Analiza kosztów i korzyści wdrożenia Big Data
Dzień 1: Sesja 2: Wprowadzenie do Big Data-1
- Główne cechy Big Data – objętość, różnorodność, szybkość i wiarygodność. Architektura MPP dla objętości.
- Magazyny danych – statyczny schemat, wolno ewoluujący zbiór danych
- Bazy danych MPP, takie jak Greenplum, Exadata, Teradata, Netezza, Vertica itp.
- Rozwiązania oparte na Hadoop – brak warunków dotyczących struktury zbioru danych.
- Typowy wzorzec: HDFS, MapReduce (przetwarzanie), pobieranie z HDFS
- Przetwarzanie wsadowe – odpowiednie do analiz/nieinteraktywnych
- Objętość: strumieniowe dane CEP
- Typowe wybory – produkty CEP (np. Infostreams, Apama, MarkLogic itp.)
- Mniej gotowe do produkcji – Storm/S4
- Bazy danych NoSQL – (kolumnowe i klucz-wartość): najlepiej nadające się jako analityczne uzupełnienie magazynu danych/bazy danych
Dzień 1: Sesja 3: Wprowadzenie do Big Data-2
Rozwiązania NoSQL
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Hierarchiczny) - GT.m, Cache
- KV Store (Uporządkowany) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Baza danych obiektowych - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Różnorodność danych: Wprowadzenie do problemów z czyszczeniem danych w Big Data
- RDBMS – statyczna struktura/schemat, nie sprzyja elastycznemu, eksploracyjnemu środowisku.
- NoSQL – częściowo ustrukturyzowane, wystarczająca struktura do przechowywania danych bez dokładnego schematu przed zapisem danych
- Problemy z czyszczeniem danych
Dzień 1: Sesja 4: Wprowadzenie do Big Data-3: Hadoop
- Kiedy wybrać Hadoop?
- STRUKTURALNE – Magazyny danych/bazy danych przedsiębiorstw mogą przechowywać ogromne ilości danych (za koszt), ale narzucają strukturę (nie dobre do aktywnej eksploracji)
- Dane CZĘŚCIOWO STRUKTURALNE – trudne do realizacji za pomocą tradycyjnych rozwiązań (DW/DB)
- Magazynowanie danych = OGROMNY wysiłek i statyczne nawet po wdrożeniu
- Dla różnorodności i objętości danych, przetwarzane na sprzęcie klasy konsumenckiej – HADOOP
- Potrzebny sprzęt klasy konsumenckiej do utworzenia klastra Hadoop
Wprowadzenie do Map Reduce/HDFS
- MapReduce – rozproszone przetwarzanie na wielu serwerach
- HDFS – udostępnienie danych lokalnie dla procesu przetwarzania (z redundancją)
- Dane – mogą być nieustrukturyzowane/bez schematu (w przeciwieństwie do RDBMS)
- Odpowiedzialność programisty za nadanie sensu danym
- Programowanie MapReduce = praca z Javą (zalety/wady), ręczne ładowanie danych do HDFS
Dzień 2: Sesja 1: Ekosystem Big Data – Budowanie ETL dla Big Data: wszechświat narzędzi Big Data – które wybrać i kiedy?
- Hadoop vs. inne rozwiązania NoSQL
- Do interaktywnego, losowego dostępu do danych
- Hbase (baza danych kolumnowa) na bazie Hadoop
- Losowy dostęp do danych, ale z narzuconymi ograniczeniami (maks. 1 PB)
- Nie nadaje się do ad-hoc analiz, dobre do logowania, zliczania, szeregów czasowych
- Sqoop – Import z baz danych do Hive lub HDFS (dostęp JDBC/ODBC)
- Flume – Przesyłanie danych (np. logów) do HDFS
Dzień 2: Sesja 2: System zarządzania Big Data
- Ruchome części, uruchamianie/awarie węzłów obliczeniowych: ZooKeeper – Do konfiguracji/koordynacji/usług nazewnictwa
- Złożony pipeline/przepływ pracy: Oozie – zarządzanie przepływem pracy, zależnościami, łańcuchami
- Wdrażanie, konfiguracja, zarządzanie klastrami, aktualizacje itp. (administracja systemem): Ambari
- W chmurze: Whirr
Dzień 2: Sesja 3: Analityka predykcyjna w Business Intelligence -1: Podstawowe techniki i BI oparte na uczeniu maszynowym:
- Wprowadzenie do uczenia maszynowego
- Techniki klasyfikacji
- Predykcja Bayesa – przygotowanie pliku treningowego
- Maszyna wektorów nośnych
- Algebra KNN p-Tree i wydobywanie pionowe
- Sieci neuronowe
- Problem dużych zmiennych w Big Data – Random forest (RF)
- Problem automatyzacji w Big Data – Multi-model ensemble RF
- Automatyzacja przez Soft10-M
- Narzędzie do analizy tekstu – Treeminer
- Agile learning
- Uczenie oparte na agentach
- Uczenie rozproszone
- Wprowadzenie do narzędzi open source do analizy predykcyjnej: R, Rapidminer, Mahut
Dzień 2: Sesja 4 Ekosystem analityki predykcyjnej-2: Typowe problemy analityki predykcyjnej w rządzie
- Analityka wglądu
- Analityka wizualizacji
- Strukturalna analityka predykcyjna
- Nieustrukturyzowana analityka predykcyjna
- Profilowanie zagrożeń/oszustw/dostawców
- Silnik rekomendacji
- Wykrywanie wzorców
- Odkrywanie reguł/scenariuszy – awarie, oszustwa, optymalizacja
- Odkrywanie przyczyn źródłowych
- Analiza sentymentu
- Analityka CRM
- Analityka sieciowa
- Analityka tekstu
- Przegląd wspomagany technologią
- Analityka oszustw
- Analityka w czasie rzeczywistym
Dzień 3: Sesja 1: Analityka w czasie rzeczywistym i skalowalna na bazie Hadoop
- Dlaczego typowe algorytmy analityczne zawodzą w Hadoop/HDFS
- Apache Hama – do masowego synchronicznego przetwarzania rozproszonego
- Apache SPARK – do przetwarzania klastrowego w czasie rzeczywistym
- CMU Graphics Lab2 – Graficzne asynchroniczne podejście do przetwarzania rozproszonego
- Podejście oparte na algebrze KNN p-Tree z Treeminer do obniżenia kosztów sprzętowych operacji
Dzień 3: Sesja 2: Narzędzia do eDiscovery i forensyki
- eDiscovery na Big Data vs. dane legacy – porównanie kosztów i wydajności
- Przewidujące kodowanie i przegląd wspomagany technologią (TAR)
- Demo na żywo produktu TAR (vMiner), aby zrozumieć, jak TAR działa na szybsze odkrycie
- Szybsze indeksowanie przez HDFS – szybkość danych
- NLP lub przetwarzanie języka naturalnego – różne techniki i produkty open source
- eDiscovery w językach obcych – technologia przetwarzania języków obcych
Dzień 3: Sesja 3: Big Data BI dla cyberbezpieczeństwa – Zrozumienie pełnego 360-stopniowego widoku szybkiego gromadzenia danych do identyfikacji zagrożeń
- Zrozumienie podstaw analityki bezpieczeństwa – powierzchnia ataku, błędna konfiguracja bezpieczeństwa, obrona hosta
- Infrastruktura sieciowa/ Duże rury danych/ ETL odpowiedzi do analizy w czasie rzeczywistym
- Preskryptywna vs predykcyjna – Stałe reguły vs automatyczne odkrywanie reguł zagrożeń z metadanych
Dzień 3: Sesja 4: Big Data w USDA: Zastosowania w rolnictwie
- Wprowadzenie do IoT (Internetu Rzeczy) dla rolnictwa – Big Data oparte na czujnikach i kontrola
- Wprowadzenie do obrazowania satelitarnego i jego zastosowań w rolnictwie
- Integracja danych z czujników i obrazów dla żyzności gleby, rekomendacji upraw i prognozowania
- Ubezpieczenia rolnicze i Big Data
- Prognozowanie strat w uprawach
Dzień 4: Sesja 1: Zapobieganie oszustwom w BI z Big Data w rządzie – Analityka oszustw:
- Podstawowa klasyfikacja analityki oszustw – oparte na regułach vs predykcyjna
- Nadzorowane vs nienadzorowane uczenie maszynowe do wykrywania wzorców oszustw
- Oszustwa dostawców/przecenianie projektów
- Oszustwa Medicare i Medicaid – techniki wykrywania oszustw w procesie rozliczeń
- Oszustwa związane z refundacją podróży
- Oszustwa zwrotów IRS
- Studia przypadków i demo na żywo będą prezentowane tam, gdzie dostępne są dane.
Dzień 4: Sesja 2: Analityka mediów społecznościowych – Gromadzenie i analiza informacji
- API ETL Big Data do ekstrakcji danych z mediów społecznościowych
- Tekst, obrazy, metadane i wideo
- Analiza sentymentu z kanałów mediów społecznościowych
- Kontekstowe i niekontekstowe filtrowanie kanałów mediów społecznościowych
- Dashboard mediów społecznościowych do integracji różnych mediów społecznościowych
- Automatyczne profilowanie profili mediów społecznościowych
- Demo na żywo każdej analityki będzie prezentowane za pomocą narzędzia Treeminer.
Dzień 4: Sesja 3: Analityka Big Data w przetwarzaniu obrazów i strumieni wideo
- Techniki przechowywania obrazów w Big Data – Rozwiązania do przechowywania danych przekraczających petabajty
- LTFS i LTO
- GPFS-LTFS (Warstwowe rozwiązanie do przechowywania dużych danych obrazowych)
- Podstawy analityki obrazów
- Rozpoznawanie obiektów
- Segmentacja obrazów
- Śledzenie ruchu
- Rekonstrukcja obrazów 3D
Dzień 4: Sesja 4: Zastosowania Big Data w NIH:
- Nowe obszary bioinformatyki
- Metagenomika i problemy z wydobywaniem Big Data
- Analityka predykcyjna Big Data dla farmakogenomiki, metabolomiki i proteomiki
- Big Data w procesach genomiki w dół rzeki
- Zastosowanie predykcyjnej analityki Big Data w zdrowiu publicznym
Dashboard Big Data dla szybkiego dostępu do różnych danych i wyświetlania:
- Integracja istniejącej platformy aplikacyjnej z dashboardem Big Data
- Zarządzanie Big Data
- Studium przypadku dashboardu Big Data: Tableau i Pentaho
- Użyj aplikacji Big Data do oferowania usług opartych na lokalizacji w rządzie.
- System śledzenia i zarządzania
Dzień 5: Sesja 1: Jak uzasadnić wdrożenie Big Data BI w organizacji:
- Definiowanie ROI dla wdrożenia Big Data
- Studia przypadków oszczędzania czasu analityków na zbieranie i przygotowanie danych – wzrost produktywności
- Studia przypadków zysków z oszczędności kosztów licencjonowanych baz danych
- Zyski z usług opartych na lokalizacji
- Oszczędności z zapobiegania oszustwom
- Zintegrowane podejście do arkusza kalkulacyjnego do obliczania przybliżonych kosztów vs. zysków/oszczędności z wdrożenia Big Data.
Dzień 5: Sesja 2: Krok po kroku procedura zastąpienia systemu danych legacy systemem Big Data:
- Zrozumienie praktycznej mapy drogowej migracji Big Data
- Jakie są ważne informacje potrzebne przed architekturą wdrożenia Big Data
- Jakie są różne sposoby obliczania objętości, szybkości, różnorodności i wiarygodności danych
- Jak oszacować wzrost danych
- Studia przypadków
Dzień 5: Sesja 4: Przegląd dostawców Big Data i przegląd ich produktów. Sesja Q/A:
- Accenture
- APTEAN (dawniej CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (dawniej 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (część EMC)
United Arab Emirates - Big Data Business Intelligence for Govt. Agencies
Qatar - Big Data Business Intelligence for Govt. Agencies
Egypt - Big Data Business Intelligence for Govt. Agencies
Saudi Arabia - Big Data Business Intelligence for Govt. Agencies
South Africa - Big Data Business Intelligence for Govt. Agencies
Brasil - Inteligência de Negócios Big Data para Agências do Governo
Canada - Big Data Business Intelligence for Govt. Agencies
香港 - Big Data Business Intelligence for Govt. Agencies
澳門 - Big Data Business Intelligence for Govt. Agencies
台灣 - Big Data Business Intelligence for Govt. Agencies
USA - Big Data Business Intelligence for Govt. Agencies
Österreich - Big Data Business Intelligence for Govt. Agencies
Schweiz - Big Data Business Intelligence for Govt. Agencies
Deutschland - Big Data Business Intelligence for Govt. Agencies
Czech Republic - Big Data Business Intelligence pro státní orgány
Denmark - Big Data Business Intelligence for Govt. Agencies
Estonia - Big Data Business Intelligence for Govt. Agencies
Finland - Big Data Business Intelligence for Govt. Agencies
Greece - Μεγάλα Δεδομένα Επιχειρησιακή Νοηματική για Κυβερνητικές Αρχές
Magyarország - Big Data Üzleti Intelligencia Kormányzati Szervezeteknek
Ireland - Big Data Business Intelligence for Govt. Agencies
Luxembourg - Big Data Business Intelligence for Govt. Agencies
Latvia - Big Data Business Intelligence for Govt. Agencies
España - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Italia - Intelligenza Aziendale Big Data per le Agenzie Governative
Lithuania - Big Data Business Intelligence for Govt. Agencies
Nederland - Big Data Business Intelligence voor Overheidsinstanties
Norway - Big Data Business Intelligence for Govt. Agencies
Portugal - Inteligência de Negócios Big Data para Agências do Governo
România - Inteligența de Business pe Date Mari pentru Agențiile Guvernamentale
Sverige - Big Data Business Intelligence för regeringsorgan
Türkiye - Hükümet Kurumları için Büyük Veri İşletme Zekası
Malta - Big Data Business Intelligence for Govt. Agencies
Belgique - Intelligence d'affaires Big Data pour les agences gouvernementales
France - Intelligence d'affaires Big Data pour les agences gouvernementales
日本 - 政府機関向けの大規模データビジネスインテリジェンス
Australia - Big Data Business Intelligence for Govt. Agencies
Malaysia - Big Data Business Intelligence for Govt. Agencies
New Zealand - Big Data Business Intelligence for Govt. Agencies
Philippines - Big Data Business Intelligence for Govt. Agencies
Singapore - Big Data Business Intelligence for Govt. Agencies
Thailand - Big Data Business Intelligence for Govt. Agencies
Vietnam - Trí tuệ kinh doanh Big Data cho các cơ quan chính phủ
India - Big Data Business Intelligence for Govt. Agencies
Argentina - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Chile - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Costa Rica - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Ecuador - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Guatemala - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Colombia - Inteligencia de Negocios de Big Data para Agencias del Gobierno
México - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Panama - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Peru - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Uruguay - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Venezuela - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Polska - Big Data Business Intelligence for Govt. Agencies
United Kingdom - Big Data Business Intelligence for Govt. Agencies
South Korea - 정부 기관을 위한 빅 데이터 비즈니스 인텔리전스
Pakistan - Big Data Business Intelligence for Govt. Agencies
Sri Lanka - Big Data Business Intelligence for Govt. Agencies
Bulgaria - Бизнес интелигентност с Big Data за държавни агенции
Bolivia - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Indonesia - Big Data Business Intelligence for Govt. Agencies
Kazakhstan - Big Data Business Intelligence for Govt. Agencies
Moldova - Inteligența de Business pe Date Mari pentru Agențiile Guvernamentale
Morocco - Big Data Business Intelligence for Govt. Agencies
Tunisia - Big Data Business Intelligence for Govt. Agencies
Kuwait - Big Data Business Intelligence for Govt. Agencies
Oman - Big Data Business Intelligence for Govt. Agencies
Slovakia - Big Data Business Intelligence for Govt. Agencies
Kenya - Big Data Business Intelligence for Govt. Agencies
Nigeria - Big Data Business Intelligence for Govt. Agencies
Botswana - Big Data Business Intelligence for Govt. Agencies
Slovenia - Big Data Business Intelligence for Govt. Agencies
Croatia - Big Data Business Intelligence for Govt. Agencies
Serbia - Big Data Business Intelligence for Govt. Agencies
Bhutan - Big Data Business Intelligence for Govt. Agencies
Nepal - Big Data Business Intelligence for Govt. Agencies
Uzbekistan - Big Data Business Intelligence for Govt. Agencies
US Government - Big Data Business Intelligence for Govt. Agencies