Course Code: bdbiga
Duration: 35 hours
Prerequisites:
- Connaissances de base des opérations commerciales et des systèmes de données du gouvernement dans leur domaine
- Compréhension de base de SQL/Oracle ou d'une base de données relationnelle
- Connaissance de base des statistiques (au niveau des tableurs)
Overview:
Les progrès technologiques et l'augmentation des volumes d'information transforment la manière dont les affaires sont menées dans de nombreux secteurs, y compris le gouvernement. Les taux de génération et d'archivage numérique des données gouvernementales augmentent en raison de la croissance rapide des appareils mobiles et des applications, des capteurs intelligents et des dispositifs, des solutions de cloud computing et des portails destinés aux citoyens. À mesure que l'information numérique s'étend et devient plus complexe, la gestion, le traitement, le stockage, la sécurité et la disposition des données deviennent également plus complexes. De nouveaux outils de capture, de recherche, de découverte et d'analyse aident les organisations à tirer des insights de leurs données non structurées. Le marché gouvernemental est à un point d'inflexion, réalisant que l'information est un actif stratégique, et que le gouvernement doit protéger, exploiter et analyser tant les informations structurées que non structurées pour mieux servir et répondre aux exigences de sa mission. Alors que les dirigeants gouvernementaux s'efforcent d'évoluer vers des organisations axées sur les données pour accomplir avec succès leur mission, ils posent les bases pour corrélérer les dépendances entre les événements, les personnes, les processus et l'information.
Des solutions gouvernementales de haute valeur seront créées à partir d'un mélange des technologies les plus disruptives :
- Appareils et applications mobiles
- Services cloud
- Technologies de réseautage professionnel et de médias sociaux
- Big Data et analytics
Le Big Data est l'une des solutions intelligentes pour les industries et permet au gouvernement de prendre de meilleures décisions en agissant sur les modèles révélés par l'analyse de grands volumes de données — structurées ou non, liées ou non.
Mais accomplir ces prouesses nécessite bien plus que simplement accumuler des quantités massives de données. « Comprendre le sens de ces volumes de Big Data nécessite des outils et technologies de pointe capables d'analyser et d'extraire des connaissances utiles à partir de flux d'information vastes et diversifiés », ont écrit Tom Kalil et Fen Zhao du Bureau de la politique scientifique et technologique de la Maison Blanche dans un billet sur le blog OSTP.
La Maison Blanche a fait un pas pour aider les agences à trouver ces technologies en établissant l'Initiative nationale de recherche et développement Big Data en 2012. L'initiative comprenait plus de 200 millions de dollars pour tirer le meilleur parti de l'explosion du Big Data et des outils nécessaires pour l'analyser.
Les défis posés par le Big Data sont presque aussi redoutables que ses promesses sont encourageantes. Le stockage efficace des données est l'un de ces défis. Comme toujours, les budgets sont serrés, donc les agences doivent minimiser le coût du stockage par mégaoctet et conserver les données facilement accessibles pour que les utilisateurs puissent y accéder quand ils le souhaitent et comme ils en ont besoin. La sauvegarde de quantités massives de données accentue ce défi.
Analyser efficacement les données est un autre défi majeur. De nombreuses agences utilisent des outils commerciaux qui leur permettent de trier à travers des montagnes de données, repérant des tendances qui peuvent les aider à opérer plus efficacement. (Une récente étude de MeriTalk a montré que les dirigeants IT fédéraux pensaient que le Big Data pourrait aider les agences à économiser plus de 500 milliards de dollars tout en remplissant leurs objectifs de mission.).
Des outils Big Data développés sur mesure permettent également aux agences d'analyser leurs données. Par exemple, le groupe Analyse des Données Computationnelles du Laboratoire National Oak Ridge a rendu son système d'analyse de données Piranha disponible pour d'autres agences. Le système a aidé les chercheurs médicaux à trouver un lien permettant d'alerter les médecins sur les anévrysmes aortiques avant qu'ils ne surviennent. Il est également utilisé pour des tâches plus ordinaires, comme trier des CV pour connecter des candidats à des postes avec des gestionnaires de recrutement.
Course Outline:
Chaque session dure 2 heures
Jour-1 : Session -1 : Aperçu commercial du Big Data et de l'intelligence d'affaires dans le gouvernement
- Études de cas provenant de NIH, DoE
- Taux d'adoption du Big Data dans les agences gouvernementales et comment elles alignent leurs futures opérations autour des analyses prédictives du Big Data
- Domaines d'application à grande échelle au sein de la Défense, de l'Agence de sécurité nationale (NSA), du Service des impôts internes (IRS) et de l'Agriculture (USDA)
- Intégration du Big Data avec les données héritées
- Compréhension de base des technologies d'enablement dans l'analyse prédictive
- Intégration de données et visualisation de tableaux de bord
- Gestion de la fraude
- Génération de règles commerciales/détection de fraude
- Détection et profilage des menaces
- Analyse coût-bénéfice pour l'implémentation du Big Data
Jour-1 : Session-2 : Introduction au Big Data - 1
- Caractéristiques principales du Big Data — volume, variété, vitesse et véracité. Architecture MPP pour le volume.
- Entrepôts de données — schéma statique, jeu de données évoluant lentement
- Bases de données MPP comme Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
- Solutions basées sur Hadoop — pas de conditions sur la structure du jeu de données.
- Schéma typique : HDFS, MapReduce (traitement), récupération à partir d'HDFS
- Traitement par lots — adapté aux analyses/non-interactives
- Volume : données de streaming CEP
- Choix typiques — produits CEP (par exemple, Infostreams, Apama, MarkLogic, etc.)
- Moins prêts à la production — Storm/S4
- Bases de données NoSQL (colonne et clé-valeur) : mieux adaptées en complément d'un entrepôt de données/base de données pour l'analyse
Jour-1 : Session -3 : Introduction au Big Data - 2
Solutions NoSQL
- KV Store — Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store — Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (hiérarchique) — GT.m, Cache
- KV Store (ordonné) — TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache — Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store — Gigaspaces, Coord, Apache River
- Base de données objet — ZopeDB, DB40, Shoal
- Base de données documentaire — CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Persevere, Riak-Basho, Scalaris
- Store à colonnes larges — BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variétés de données : Introduction aux problèmes de nettoyage des données dans le Big Data
- SGBD — structure/statut statique, ne favorise pas un environnement agile et exploratoire.
- NoSQL — semi-structuré, suffisamment structuré pour stocker des données sans schéma exact avant le stockage
- Problèmes de nettoyage des données
Jour-1 : Session-4 : Introduction au Big Data - 3 : Hadoop
- Quand choisir Hadoop ?
- STRUCTURÉ — Les entrepôts de données/les bases de données d'entreprise peuvent stocker des volumes massifs de données (à un coût) mais imposent une structure (pas bon pour l'exploration active)
- DONNÉES SEMI-STRUCTURÉES — difficiles à gérer avec des solutions traditionnelles (DW/DB)
- Création d'entrepôts de données = effort énorme et statique même après l'implémentation
- Pour la variété et le volume de données, traitées sur du matériel standard — HADOOP
- Matériel H/standard nécessaire pour créer un cluster Hadoop
Introduction à MapReduce/HDFS
- MapReduce — distribution des calculs sur plusieurs serveurs
- HDFS — rend les données disponibles localement pour le processus de calcul (avec redondance)
- Données — peuvent être non structurées/sans schéma (contrairement aux SGBD)
- Responsabilité du développeur de donner un sens aux données
- Programmation MapReduce = travail avec Java (avantages/inconvénients), chargement manuel des données dans HDFS
Jour-2 : Session-1 : Écosystème du Big Data — Construction de l'ETL du Big Data : univers des outils de Big Data — lequel utiliser et quand ?
- Hadoop vs. autres solutions NoSQL
- Pour l'accès interactif, aléatoire aux données
- Hbase (base de données orientée colonne) sur Hadoop
- Accès aléatoire aux données mais restrictions imposées (max 1 PB)
- Pas bon pour les analyses ad hoc, bon pour le logging, le comptage, les séries temporelles
- Sqoop — Importation de bases de données vers Hive ou HDFS (accès JDBC/ODBC)
- Flume — flux de données (par exemple, données de logs) dans HDFS
Jour-2 : Session-2 : Système de gestion du Big Data
- Composants mobiles, nœuds de calcul démarrent/échouent : ZooKeeper — pour la configuration/coordonnées/services de nommage
- Pipeline/flux complexes : Oozie — gestion des flux, des dépendances, enchaînement
- Déploiement, configuration, gestion de cluster, mise à niveau, etc. (administrateur système) : Ambari
- Dans le cloud : Whirr
Jour-2 : Session-3 : Analyse prédictive dans l'intelligence d'affaires - 1 : Techniques fondamentales et analyse basée sur l'apprentissage automatique
- Introduction à l'apprentissage automatique
- Techniques de classification d'apprentissage
- Prédiction bayésienne — préparation du fichier d'entraînement
- Machine à vecteurs de support (SVM)
- KNN p-Tree Algebra & vertical mining
- Réseaux de neurones
- Problème des grandes variables du Big Data — Forêts aléatoires (RF)
- Problème d'automatisation du Big Data — Ensemble de modèles multi-modèles RF
- Automatisation par Soft10-M
- Outil d'analyse textuelle — Treeminer
- Apprentissage agile
- Apprentissage basé sur les agents
- Apprentissage distribué
- Introduction aux outils open source pour l'analyse prédictive : R, Rapidminer, Mahut
Jour-2 : Session-4 Écosystème de l'analyse prédictive - 2 : Problèmes courants d'analyse prédictive dans le gouvernement
- Analyse des insights
- Analyse visuelle
- Analyse prédictive structurée
- Analyse prédictive non structurée
- Profilage des menaces/fraudes/fournisseurs
- Moteur de recommandation
- Détection de modèles
- Découverte de règles/scénarios — échec, fraude, optimisation
- Découverte des causes profondes
- Analyse des sentiments
- Analyse CRM
- Analyse de réseau
- Analyse textuelle
- Examen assisté par la technologie
- Analyse des fraudes
- Analyse en temps réel
Jour-3 : Session-1 : Analyse en temps réel et évolutive sur Hadoop
- Pourquoi les algorithmes d'analyse courants échouent dans Hadoop/HDFS
- Apache Hama — pour le calcul distribué synchrone en bloc
- Apache SPARK — pour le calcul de cluster en temps réel
- Laboratoire de graphiques CMU Graphics Lab2 — approche asynchrone basée sur les graphes pour le calcul distribué
- Approche KNN p-Algebra de Treeminer pour réduire le coût matériel des opérations
Jour-3 : Session-2 : Outils d'eDiscovery et de forensique
- eDiscovery sur le Big Data vs. les données héritées — comparaison des coûts et des performances
- Codage prédictif et examen assisté par la technologie (TAR)
- Démonstration en direct d'un produit TAR (vMiner) pour comprendre comment le TAR fonctionne pour une découverte plus rapide
- Indexation plus rapide via HDFS — vitesse des données
- NLP ou Traitement du langage naturel — diverses techniques et produits open source
- eDiscovery en langues étrangères — technologie de traitement des langues étrangères
Jour-3 : Session 3 : BI Big Data pour la sécurité informatique — Compréhension d'une vue complète de 360 degrés, de la collecte rapide des données à l'identification des menaces
- Compréhension des bases de l'analyse de sécurité — surface d'attaque, mauvaise configuration de la sécurité, défenses hôtes
- Infrastructure réseau/Grande datapipe/ETL de réponse pour l'analyse en temps réel
- Prescriptif vs prédictif — Règles fixes basées sur les métadonnées vs découverte automatique des règles de menace
Jour-3 : Session 4 : Big Data au USDA : Application dans l'agriculture
- Introduction à IoT (Internet des objets) pour l'agriculture — données de capteurs basées sur le Big Data et contrôle
- Introduction à l'imagerie par satellite et ses applications dans l'agriculture
- Intégration des données de capteurs et d'imagerie pour la fertilité du sol, les recommandations de culture et la prévision
- Assurance agricole et Big Data
- Prévision des pertes de récolte
Jour-4 : Session-1 : Prévention de la fraude BI à partir du Big Data dans le gouvernement — Analyse de la fraude
- Classification de base des analyses de fraude — basées sur des règles vs prédictives
- Apprentissage automatique supervisé vs non supervisé pour la détection de modèles de fraude
- Fraude de fournisseur/surcharge pour les projets
- Fraudes d'assurance maladie et Medicaid — techniques de détection de fraudes pour le traitement des demandes
- Fraudes de remboursement de voyages
- Fraudes de remboursement d'impôt par l'IRS
- Des études de cas et des démonstrations en direct seront fournies là où les données sont disponibles.
Jour-4 : Session-2 : Analyse des médias sociaux — Collecte et analyse d'intelligence
- API ETL Big Data pour extraire les données des médias sociaux
- Texte, image, métadonnées et vidéo
- Analyse des sentiments à partir des flux de médias sociaux
- Filtrage contextuel et non contextuel des flux de médias sociaux
- Tableau de bord des médias sociaux pour intégrer diverses sources de médias sociaux
- Profilage automatique des profils de médias sociaux
- Une démonstration en direct de chaque analyse sera donnée via l'outil Treeminer.
Jour-4 : Session-3 : Analyse du Big Data dans le traitement d'image et les flux vidéo
- Techniques de stockage d'images dans le Big Data — solutions de stockage pour des données dépassant les pétaoctets
- LTFS et LTO
- GPFS-LTFS (solution de stockage en couches pour les grandes images)
- Fondements de l'analyse d'image
- Reconnaissance d'objets
- Segmentation d'images
- Suivi de mouvement
- Reconstruction d'images 3D
Jour-4 : Session-4 : Applications du Big Data au NIH
- Domaines émergents de la bio-informatique
- Méta-génomique et problèmes d'exploitation des données Big Data
- Analyse prédictive du Big Data pour la pharmacogénomique, la métabolomique et la protéomique
- Big Data dans le processus génomique en aval
- Applications de l'analyse prédictive du Big Data pour la santé publique
Tableau de bord Big Data pour un accès rapide et une visualisation diversifiée des données :
- Intégration de la plateforme d'application existante avec le tableau de bord Big Data
- Gestion du Big Data
- Étude de cas de tableau de bord Big Data : Tableau et Pentaho
- Utilisation d'une application Big Data pour pousser des services basés sur l'emplacement dans le gouvernement
- Système de suivi et gestion
Jour-5 : Session-1 : Comment justifier l'implémentation de l'intelligence d'affaires Big Data au sein d'une organisation :
- Définition du retour sur investissement (ROI) pour l'implémentation du Big Data
- Études de cas pour économiser le temps des analystes dans la collecte et la préparation des données — augmentation de la productivité
- Études de cas d'augmentation des revenus grâce à l'économie sur les coûts des bases de données sous licence
- Augmentation des revenus grâce aux services basés sur l'emplacement
- Économies réalisées grâce à la prévention de la fraude
- Une approche intégrée de tableur pour calculer les dépenses approximatives vs. le gain/les économies de revenus issus de l'implémentation du Big Data.
Jour-5 : Session-2 : Procédure étape par étape pour remplacer un système de données héritées par un système de Big Data :
- Compréhension du plan d'implémentation pratique du Big Data
- Quelles sont les informations importantes à connaître avant de concevoir une implémentation de Big Data
- Quelles sont les différentes méthodes pour calculer le volume, la vitesse, la variété et la véracité des données
- Comment estimer la croissance des données
- Études de cas
Jour-5 : Session 4 : Revue des fournisseurs de Big Data et évaluation de leurs produits. Séance Q/A :
- Accenture
- APTEAN (anciennement CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (anciennement 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (partie de EMC)
Overview in Category: