Intelligence d'affaires Big Data pour les agences gouvernementales

Course Code: bdbiga

Duration: 35 hours

Prerequisites:

Connaissances de base des opérations commerciales et des systèmes de données du gouvernement dans leur domaine
Compréhension de base de SQL/Oracle ou d'une base de données relationnelle
Connaissance de base des statistiques (au niveau des tableurs)

Overview:

Les progrès technologiques et l'augmentation des volumes d'information transforment la manière dont les affaires sont menées dans de nombreux secteurs, y compris le gouvernement. Les taux de génération et d'archivage numérique des données gouvernementales augmentent en raison de la croissance rapide des appareils mobiles et des applications, des capteurs intelligents et des dispositifs, des solutions de cloud computing et des portails destinés aux citoyens. À mesure que l'information numérique s'étend et devient plus complexe, la gestion, le traitement, le stockage, la sécurité et la disposition des données deviennent également plus complexes. De nouveaux outils de capture, de recherche, de découverte et d'analyse aident les organisations à tirer des insights de leurs données non structurées. Le marché gouvernemental est à un point d'inflexion, réalisant que l'information est un actif stratégique, et que le gouvernement doit protéger, exploiter et analyser tant les informations structurées que non structurées pour mieux servir et répondre aux exigences de sa mission. Alors que les dirigeants gouvernementaux s'efforcent d'évoluer vers des organisations axées sur les données pour accomplir avec succès leur mission, ils posent les bases pour corrélérer les dépendances entre les événements, les personnes, les processus et l'information.

Des solutions gouvernementales de haute valeur seront créées à partir d'un mélange des technologies les plus disruptives :

Appareils et applications mobiles
Services cloud
Technologies de réseautage professionnel et de médias sociaux
Big Data et analytics

Le Big Data est l'une des solutions intelligentes pour les industries et permet au gouvernement de prendre de meilleures décisions en agissant sur les modèles révélés par l'analyse de grands volumes de données — structurées ou non, liées ou non.

Mais accomplir ces prouesses nécessite bien plus que simplement accumuler des quantités massives de données. « Comprendre le sens de ces volumes de Big Data nécessite des outils et technologies de pointe capables d'analyser et d'extraire des connaissances utiles à partir de flux d'information vastes et diversifiés », ont écrit Tom Kalil et Fen Zhao du Bureau de la politique scientifique et technologique de la Maison Blanche dans un billet sur le blog OSTP.

La Maison Blanche a fait un pas pour aider les agences à trouver ces technologies en établissant l'Initiative nationale de recherche et développement Big Data en 2012. L'initiative comprenait plus de 200 millions de dollars pour tirer le meilleur parti de l'explosion du Big Data et des outils nécessaires pour l'analyser.

Les défis posés par le Big Data sont presque aussi redoutables que ses promesses sont encourageantes. Le stockage efficace des données est l'un de ces défis. Comme toujours, les budgets sont serrés, donc les agences doivent minimiser le coût du stockage par mégaoctet et conserver les données facilement accessibles pour que les utilisateurs puissent y accéder quand ils le souhaitent et comme ils en ont besoin. La sauvegarde de quantités massives de données accentue ce défi.

Analyser efficacement les données est un autre défi majeur. De nombreuses agences utilisent des outils commerciaux qui leur permettent de trier à travers des montagnes de données, repérant des tendances qui peuvent les aider à opérer plus efficacement. (Une récente étude de MeriTalk a montré que les dirigeants IT fédéraux pensaient que le Big Data pourrait aider les agences à économiser plus de 500 milliards de dollars tout en remplissant leurs objectifs de mission.).

Des outils Big Data développés sur mesure permettent également aux agences d'analyser leurs données. Par exemple, le groupe Analyse des Données Computationnelles du Laboratoire National Oak Ridge a rendu son système d'analyse de données Piranha disponible pour d'autres agences. Le système a aidé les chercheurs médicaux à trouver un lien permettant d'alerter les médecins sur les anévrysmes aortiques avant qu'ils ne surviennent. Il est également utilisé pour des tâches plus ordinaires, comme trier des CV pour connecter des candidats à des postes avec des gestionnaires de recrutement.

Course Outline:

Chaque session dure 2 heures

Jour-1 : Session -1 : Aperçu commercial du Big Data et de l'intelligence d'affaires dans le gouvernement

Études de cas provenant de NIH, DoE
Taux d'adoption du Big Data dans les agences gouvernementales et comment elles alignent leurs futures opérations autour des analyses prédictives du Big Data
Domaines d'application à grande échelle au sein de la Défense, de l'Agence de sécurité nationale (NSA), du Service des impôts internes (IRS) et de l'Agriculture (USDA)
Intégration du Big Data avec les données héritées
Compréhension de base des technologies d'enablement dans l'analyse prédictive
Intégration de données et visualisation de tableaux de bord
Gestion de la fraude
Génération de règles commerciales/détection de fraude
Détection et profilage des menaces
Analyse coût-bénéfice pour l'implémentation du Big Data

Jour-1 : Session-2 : Introduction au Big Data - 1

Caractéristiques principales du Big Data — volume, variété, vitesse et véracité. Architecture MPP pour le volume.
Entrepôts de données — schéma statique, jeu de données évoluant lentement
Bases de données MPP comme Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
Solutions basées sur Hadoop — pas de conditions sur la structure du jeu de données.
Schéma typique : HDFS, MapReduce (traitement), récupération à partir d'HDFS
Traitement par lots — adapté aux analyses/non-interactives
Volume : données de streaming CEP
Choix typiques — produits CEP (par exemple, Infostreams, Apama, MarkLogic, etc.)
Moins prêts à la production — Storm/S4
Bases de données NoSQL (colonne et clé-valeur) : mieux adaptées en complément d'un entrepôt de données/base de données pour l'analyse

Jour-1 : Session -3 : Introduction au Big Data - 2

Solutions NoSQL

KV Store — Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
KV Store — Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
KV Store (hiérarchique) — GT.m, Cache
KV Store (ordonné) — TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
KV Cache — Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
Tuple Store — Gigaspaces, Coord, Apache River
Base de données objet — ZopeDB, DB40, Shoal
Base de données documentaire — CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Persevere, Riak-Basho, Scalaris
Store à colonnes larges — BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variétés de données : Introduction aux problèmes de nettoyage des données dans le Big Data

SGBD — structure/statut statique, ne favorise pas un environnement agile et exploratoire.
NoSQL — semi-structuré, suffisamment structuré pour stocker des données sans schéma exact avant le stockage
Problèmes de nettoyage des données

Jour-1 : Session-4 : Introduction au Big Data - 3 : Hadoop

Quand choisir Hadoop ?
STRUCTURÉ — Les entrepôts de données/les bases de données d'entreprise peuvent stocker des volumes massifs de données (à un coût) mais imposent une structure (pas bon pour l'exploration active)
DONNÉES SEMI-STRUCTURÉES — difficiles à gérer avec des solutions traditionnelles (DW/DB)
Création d'entrepôts de données = effort énorme et statique même après l'implémentation
Pour la variété et le volume de données, traitées sur du matériel standard — HADOOP
Matériel H/standard nécessaire pour créer un cluster Hadoop

Introduction à MapReduce/HDFS

MapReduce — distribution des calculs sur plusieurs serveurs
HDFS — rend les données disponibles localement pour le processus de calcul (avec redondance)
Données — peuvent être non structurées/sans schéma (contrairement aux SGBD)
Responsabilité du développeur de donner un sens aux données
Programmation MapReduce = travail avec Java (avantages/inconvénients), chargement manuel des données dans HDFS

Jour-2 : Session-1 : Écosystème du Big Data — Construction de l'ETL du Big Data : univers des outils de Big Data — lequel utiliser et quand ?

Hadoop vs. autres solutions NoSQL
Pour l'accès interactif, aléatoire aux données
Hbase (base de données orientée colonne) sur Hadoop
Accès aléatoire aux données mais restrictions imposées (max 1 PB)
Pas bon pour les analyses ad hoc, bon pour le logging, le comptage, les séries temporelles
Sqoop — Importation de bases de données vers Hive ou HDFS (accès JDBC/ODBC)
Flume — flux de données (par exemple, données de logs) dans HDFS

Jour-2 : Session-2 : Système de gestion du Big Data

Composants mobiles, nœuds de calcul démarrent/échouent : ZooKeeper — pour la configuration/coordonnées/services de nommage
Pipeline/flux complexes : Oozie — gestion des flux, des dépendances, enchaînement
Déploiement, configuration, gestion de cluster, mise à niveau, etc. (administrateur système) : Ambari
Dans le cloud : Whirr

Jour-2 : Session-3 : Analyse prédictive dans l'intelligence d'affaires - 1 : Techniques fondamentales et analyse basée sur l'apprentissage automatique

Introduction à l'apprentissage automatique
Techniques de classification d'apprentissage
Prédiction bayésienne — préparation du fichier d'entraînement
Machine à vecteurs de support (SVM)
KNN p-Tree Algebra & vertical mining
Réseaux de neurones
Problème des grandes variables du Big Data — Forêts aléatoires (RF)
Problème d'automatisation du Big Data — Ensemble de modèles multi-modèles RF
Automatisation par Soft10-M
Outil d'analyse textuelle — Treeminer
Apprentissage agile
Apprentissage basé sur les agents
Apprentissage distribué
Introduction aux outils open source pour l'analyse prédictive : R, Rapidminer, Mahut

Jour-2 : Session-4 Écosystème de l'analyse prédictive - 2 : Problèmes courants d'analyse prédictive dans le gouvernement

Analyse des insights
Analyse visuelle
Analyse prédictive structurée
Analyse prédictive non structurée
Profilage des menaces/fraudes/fournisseurs
Moteur de recommandation
Détection de modèles
Découverte de règles/scénarios — échec, fraude, optimisation
Découverte des causes profondes
Analyse des sentiments
Analyse CRM
Analyse de réseau
Analyse textuelle
Examen assisté par la technologie
Analyse des fraudes
Analyse en temps réel

Jour-3 : Session-1 : Analyse en temps réel et évolutive sur Hadoop

Pourquoi les algorithmes d'analyse courants échouent dans Hadoop/HDFS
Apache Hama — pour le calcul distribué synchrone en bloc
Apache SPARK — pour le calcul de cluster en temps réel
Laboratoire de graphiques CMU Graphics Lab2 — approche asynchrone basée sur les graphes pour le calcul distribué
Approche KNN p-Algebra de Treeminer pour réduire le coût matériel des opérations

Jour-3 : Session-2 : Outils d'eDiscovery et de forensique

eDiscovery sur le Big Data vs. les données héritées — comparaison des coûts et des performances
Codage prédictif et examen assisté par la technologie (TAR)
Démonstration en direct d'un produit TAR (vMiner) pour comprendre comment le TAR fonctionne pour une découverte plus rapide
Indexation plus rapide via HDFS — vitesse des données
NLP ou Traitement du langage naturel — diverses techniques et produits open source
eDiscovery en langues étrangères — technologie de traitement des langues étrangères

Jour-3 : Session 3 : BI Big Data pour la sécurité informatique — Compréhension d'une vue complète de 360 degrés, de la collecte rapide des données à l'identification des menaces

Compréhension des bases de l'analyse de sécurité — surface d'attaque, mauvaise configuration de la sécurité, défenses hôtes
Infrastructure réseau/Grande datapipe/ETL de réponse pour l'analyse en temps réel
Prescriptif vs prédictif — Règles fixes basées sur les métadonnées vs découverte automatique des règles de menace

Jour-3 : Session 4 : Big Data au USDA : Application dans l'agriculture

Introduction à IoT (Internet des objets) pour l'agriculture — données de capteurs basées sur le Big Data et contrôle
Introduction à l'imagerie par satellite et ses applications dans l'agriculture
Intégration des données de capteurs et d'imagerie pour la fertilité du sol, les recommandations de culture et la prévision
Assurance agricole et Big Data
Prévision des pertes de récolte

Jour-4 : Session-1 : Prévention de la fraude BI à partir du Big Data dans le gouvernement — Analyse de la fraude

Classification de base des analyses de fraude — basées sur des règles vs prédictives
Apprentissage automatique supervisé vs non supervisé pour la détection de modèles de fraude
Fraude de fournisseur/surcharge pour les projets
Fraudes d'assurance maladie et Medicaid — techniques de détection de fraudes pour le traitement des demandes
Fraudes de remboursement de voyages
Fraudes de remboursement d'impôt par l'IRS
Des études de cas et des démonstrations en direct seront fournies là où les données sont disponibles.

Jour-4 : Session-2 : Analyse des médias sociaux — Collecte et analyse d'intelligence

API ETL Big Data pour extraire les données des médias sociaux
Texte, image, métadonnées et vidéo
Analyse des sentiments à partir des flux de médias sociaux
Filtrage contextuel et non contextuel des flux de médias sociaux
Tableau de bord des médias sociaux pour intégrer diverses sources de médias sociaux
Profilage automatique des profils de médias sociaux
Une démonstration en direct de chaque analyse sera donnée via l'outil Treeminer.

Jour-4 : Session-3 : Analyse du Big Data dans le traitement d'image et les flux vidéo

Techniques de stockage d'images dans le Big Data — solutions de stockage pour des données dépassant les pétaoctets
LTFS et LTO
GPFS-LTFS (solution de stockage en couches pour les grandes images)
Fondements de l'analyse d'image
Reconnaissance d'objets
Segmentation d'images
Suivi de mouvement
Reconstruction d'images 3D

Jour-4 : Session-4 : Applications du Big Data au NIH

Domaines émergents de la bio-informatique
Méta-génomique et problèmes d'exploitation des données Big Data
Analyse prédictive du Big Data pour la pharmacogénomique, la métabolomique et la protéomique
Big Data dans le processus génomique en aval
Applications de l'analyse prédictive du Big Data pour la santé publique

Tableau de bord Big Data pour un accès rapide et une visualisation diversifiée des données :

Intégration de la plateforme d'application existante avec le tableau de bord Big Data
Gestion du Big Data
Étude de cas de tableau de bord Big Data : Tableau et Pentaho
Utilisation d'une application Big Data pour pousser des services basés sur l'emplacement dans le gouvernement
Système de suivi et gestion

Jour-5 : Session-1 : Comment justifier l'implémentation de l'intelligence d'affaires Big Data au sein d'une organisation :

Définition du retour sur investissement (ROI) pour l'implémentation du Big Data
Études de cas pour économiser le temps des analystes dans la collecte et la préparation des données — augmentation de la productivité
Études de cas d'augmentation des revenus grâce à l'économie sur les coûts des bases de données sous licence
Augmentation des revenus grâce aux services basés sur l'emplacement
Économies réalisées grâce à la prévention de la fraude
Une approche intégrée de tableur pour calculer les dépenses approximatives vs. le gain/les économies de revenus issus de l'implémentation du Big Data.

Jour-5 : Session-2 : Procédure étape par étape pour remplacer un système de données héritées par un système de Big Data :

Compréhension du plan d'implémentation pratique du Big Data
Quelles sont les informations importantes à connaître avant de concevoir une implémentation de Big Data
Quelles sont les différentes méthodes pour calculer le volume, la vitesse, la variété et la véracité des données
Comment estimer la croissance des données
Études de cas

Jour-5 : Session 4 : Revue des fournisseurs de Big Data et évaluation de leurs produits. Séance Q/A :

Accenture
APTEAN (anciennement CDC Software)
Cisco Systems
Cloudera
Dell
EMC
GoodData Corporation
Guavus
Hitachi Data Systems
Hortonworks
HP
IBM
Informatica
Intel
Jaspersoft
Microsoft
MongoDB (anciennement 10Gen)
MU Sigma
Netapp
Opera Solutions
Oracle
Pentaho
Platfora
Qliktech
Quantum
Rackspace
Revolution Analytics
Salesforce
SAP
SAS Institute
Sisense
Software AG/Terracotta
Soft10 Automation
Splunk
Sqrrl
Supermicro
Tableau Software
Teradata
Think Big Analytics
Tidemark Systems
Treeminer
VMware (partie de EMC)