Prenez contact avec nous

Plan du cours

Chaque session dure 2 heures

Jour-1 : Session -1 : Aperçu des affaires sur le Business Intelligence Big Data dans le secteur gouvernemental

  • Études de cas du NIH, du DoE
  • Taux d'adoption du Big Data dans les agences gouvernementales et comment elles alignent leurs opérations futures autour des prévisions analytiques du Big Data
  • Domaines d'application à grande échelle au sein du DoD, NSA, IRS, USDA, etc.
  • Interface entre le Big Data et les données héritées
  • Compréhension de base des technologies de support en analyse prédictive
  • Intégration des données et visualisation de tableaux de bord
  • Gestion de la fraude
  • Génération de règles commerciales/détection de fraude
  • Détection des menaces et profilage
  • Analyse coûts-avantages pour la mise en œuvre du Big Data

Jour-1 : Session-2 : Introduction au Big Data-1

  • Caractéristiques principales du Big Data : volume, variété, vélocité et véracité. Architecture MPP pour le volume.
  • Entrepôts de données – schéma statique, ensemble de données à évolution lente
  • Bases de données MPP comme Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
  • Solutions basées sur Hadoop – aucune condition sur la structure de l'ensemble de données.
  • Schéma typique : HDFS, MapReduce (crunch), récupération depuis HDFS
  • Lots – adaptés à l'analyse/non interactif
  • Volume : données de streaming CEP
  • Choix typiques – produits CEP (ex. Infostreams, Apama, MarkLogic, etc)
  • Prêt pour la production moins avancé – Storm/S4
  • Bases de données NoSQL – (colonnaires et clé-valeur) : les plus adaptées en tant qu'adjonct analytique à l'entrepôt/base de données

Jour-1 : Session -3 : Introduction au Big Data-2

Solutions NoSQL

  • Stockage KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • Stockage KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Stockage KV (Hiérarchique) - GT.m, Cache
  • Stockage KV (Ordonné) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • Cache KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Stockage de tuples - Gigaspaces, Coord, Apache River
  • Bases de données objets - ZopeDB, DB40, Shoal
  • Stockage de documents - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, Bases XML, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Stockage large colonnaire - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variantes de données : Introduction aux problèmes de nettoyage de données dans le Big Data

  • RDBMS – structure/schéma statique, ne favorise pas un environnement agile et exploratoire.
  • NoSQL – semi-structuré, suffisamment de structure pour stocker les données sans schéma exact préalable.
  • Problèmes de nettoyage des données

Jour-1 : Session-4 : Introduction au Big Data-3 : Hadoop

  • Quand sélectionner Hadoop ?
  • STRUCTURÉ – Les entrepôts/bases de données d'entreprise peuvent stocker des données massives (à un coût) mais imposent une structure (pas idéal pour l'exploration active)
  • Données SEMI-STRUCTURÉES – difficiles à traiter avec des solutions traditionnelles (EDB/BD)
  • La mise en entrepôt de données = EFFORT ÉNORME et statique même après implémentation
  • Pour la variété et le volume de données, traitées sur du matériel générique – HADOOP
  • Matériel générique requis pour créer un cluster Hadoop

Introduction à MapReduce /HDFS

  • MapReduce – distribution du calcul sur plusieurs serveurs
  • HDFS – rend les données disponibles localement pour le processus de calcul (avec redondance)
  • Données – peuvent être non structurées/sans schéma (contrairement à la RDBMS)
  • Responsabilité du développeur de donner du sens aux données
  • Programmation MapReduce = travail avec Java (avantages/inconvénients), chargement manuel des données dans HDFS

Jour-2 : Session-1 : Écosystème Big Data - Construction d'un ETL Big Data : univers des outils Big Data - lesquels utiliser et quand ?

  • Hadoop vs autres solutions NoSQL
  • Pour un accès interactif et aléatoire aux données
  • Hbase (base de données orientée colonnes) sur Hadoop
  • Accès aléatoire aux données mais avec des restrictions imposées (max 1 Po)
  • Pas idéal pour l'ad-hoc analytics, bon pour les logs, les comptages, les séries temporelles
  • Sqoop - Import depuis des bases de données vers Hive ou HDFS (accès JDBC/ODBC)
  • Flume – Flux de données (ex. logs) vers HDFS

Jour-2 : Session-2 : Système de gestion Big Data

  • Composants mobiles, nœuds de calcul démarrent/échouent : ZooKeeper - Pour les services de configuration/coordination/naming
  • Pipeline/workflow complexe : Oozie – gérer le workflow, les dépendances, la chaîne de margaritas
  • Déploiement, configuration, gestion de cluster, mise à niveau, etc. (admin système) : Ambari
  • Dans le Cloud : Whirr

Jour-2 : Session-3 : Analyse prédictive dans le Business Intelligence -1 : Techniques fondamentales et BI basée sur l'apprentissage automatique :

  • Introduction à l'apprentissage automatique
  • Apprentissage des techniques de classification
  • Prédiction bayésienne - préparation du fichier d'entraînement
  • Machines à vecteurs de support
  • KNN p-Tree Algèbre & minage vertical
  • Réseau neuronal
  • Problème de grandes variables du Big Data - Forêt aléatoire (RF)
  • Problème d'automatisation du Big Data – RF à ensemble multi-modèles
  • Automatisation par Soft10-M
  • Outil d'analyse textuelle - Treeminer
  • Apprentissage agile
  • Apprentissage par agents
  • Apprentissage distribué
  • Introduction aux outils open source pour l'analyse prédictive : R, Rapidminer, Mahout

Jour-2 : Session-4 Écosystème d'analyse prédictive-2 : Problèmes courants d'analytique prédictive dans le secteur gouvernemental

  • Analytique d'insight
  • Analytique de visualisation
  • Analytique prédictive structurée
  • Analytique prédictive non structurée
  • Profilage de menaces/fraudeurs/fournisseurs
  • Moteur de recommandation
  • Détection de schémas
  • Découverte de règles/scénarios – échec, fraude, optimisation
  • Découverte de la cause racine
  • Analyse des sentiments
  • Analytique CRM
  • Analytique réseau
  • Analytique textuelle
  • Examen assisté par technologie
  • Analytique de fraude
  • Analytique en temps réel

Jour-3 : Session-1 : Analyse en temps réel et évolutive sur Hadoop

  • Pourquoi les algorithmes d'analyse courants échouent sur Hadoop/HDFS
  • Apache Hama - pour le calcul distribué synchrone par blocs
  • Apache SPARK - pour le calcul de cluster en temps réel
  • CMU Graphics Lab2 - Approche asynchrone basée sur les graphes pour le calcul distribué
  • Approche basée sur l'algèbre p-KNN de Treeminer pour réduire le coût matériel de fonctionnement

Jour-3 : Session-2 : Outils pour eDiscovery et la criminalistique

  • eDiscovery sur Big Data vs Données héritées – une comparaison des coûts et des performances
  • Codage prédictif et examen assisté par technologie (TAR)
  • Démonstration en direct d'un produit TAR (vMiner) pour comprendre comment TAR fonctionne pour une découverte plus rapide
  • Indexation plus rapide via HDFS – vélocité des données
  • TAL ou Traitement Automatique des Langues – diverses techniques et produits open source
  • eDiscovery en langues étrangères - technologie pour le traitement des langues étrangères

Jour-3 : Session 3 : Business Intelligence Big Data pour la Cybersécurité – Comprendre la vue globale à 360 degrés de la collecte rapide de données à l'identification des menaces

  • Compréhension des bases de l'analytique de sécurité - surface d'attaque, mauvaise configuration de sécurité, défenses hôtes
  • Infrastructure réseau / grand pipeline de données / Réponse ETL pour l'analyse en temps réel
  • Prescriptif vs prédictif – règles fixes vs découverte automatique des règles de menace à partir des métadonnées

Jour-3 : Session 4 : Big Data au USDA : Applications en agriculture

  • Introduction à l'IoT (Internet des Objets) pour l'agriculture – données de capteurs et contrôle basé sur le Big Data
  • Introduction à l'imagerie satellite et ses applications en agriculture
  • Intégration des données de capteurs et d'images pour la fertilité du sol, les recommandations de culture et la prévision
  • Assurance agricole et Big Data
  • Prévision des pertes de récoltes

Jour-4 : Session-1 : Prévention de la fraude par BI à partir du Big Data dans le secteur gouvernemental : Analytique de la fraude :

  • Classification de base de l'analytique de fraude – basée sur les règles vs analytique prédictive
  • Apprentissage supervisé vs non supervisé pour la détection de schémas de fraude
  • Fraude des fournisseurs/surestimation des coûts de projets
  • Fraude Medicare et Medicaid – techniques de détection de fraude pour le traitement des réclamations
  • Fraudes sur les remboursements de voyages
  • Fraudes sur les remboursements d'impôts IRS
  • Des études de cas et des démonstrations en direct seront fournies chaque fois que les données sont disponibles.

Jour-4 : Session-2 : Analytique des réseaux sociaux - Rassemblement et analyse de renseignements

  • API ETL Big Data pour l'extraction des données des réseaux sociaux
  • Texte, images, métadonnées et vidéo
  • Analyse des sentiments à partir des flux des réseaux sociaux
  • Filtrage contextuel et non contextuel des flux des réseaux sociaux
  • Tableau de bord des réseaux sociaux pour intégrer les divers réseaux sociaux
  • Profilage automatisé des profils des réseaux sociaux
  • Une démonstration en direct de chaque analytique sera fournie via l'outil Treeminer.

Jour-4 : Session-3 : Analytique Big Data dans le traitement d'images et les flux vidéo

  • Techniques de stockage d'images dans le Big Data - Solution de stockage pour des données dépassant le pétaoctet
  • LTFS et LTO
  • GPFS-LTFS (Solution de stockage en couches pour les grandes données d'images)
  • Fondamentaux de l'analytique d'images
  • Reconnaissance d'objets
  • Segmentation d'images
  • Suivi de mouvement
  • Reconstruction d'images 3D

Jour-4 : Session-4 : Applications du Big Data au NIH :

  • Domaines émergents de la bio-informatique
  • Métagenomique et problèmes de minage de données Big Data
  • Analytique prédictive Big Data pour la pharmacogénomique, la métabolomique et la protéomique
  • Big Data dans le processus génomique aval
  • Application de l'analytique prédictive Big Data dans la santé publique

Tableau de bord Big Data pour l'accessibilité rapide de diverses données et affichage :

  • Intégration de la plateforme d'applications existante avec le Tableau de bord Big Data
  • Gestion du Big Data
  • Étude de cas du Tableau de bord Big Data : Tableau et Pentaho
  • Utiliser l'application Big Data pour pousser les services géolocalisés dans le secteur gouvernemental.
  • Système de suivi et gestion

Jour-5 : Session-1 : Comment justifier la mise en œuvre du Business Intelligence Big Data au sein d'une organisation :

  • Définir le ROI pour la mise en œuvre du Big Data
  • Études de cas pour économiser le temps des analystes pour la collecte et la préparation des données – augmentation du gain de productivité
  • Études de cas de gains de revenus grâce à l'économie sur les coûts de base de données sous licence
  • Gains de revenus des services géolocalisés
  • Économies de la prévention de la fraude
  • Une approche de tableur intégrée pour calculer les dépenses approximatives vs le gain/économies de revenus de la mise en œuvre du Big Data.

Jour-5 : Session-2 : Procédure étape par étape pour remplacer le système de données hérité par un système Big Data :

  • Compréhension de la feuille de route pratique de migration Big Data
  • Quelles informations importantes sont nécessaires avant d'architecturer une mise en œuvre du Big Data
  • Quelles sont les différentes manières de calculer le volume, la vélocité, la variété et la véracité des données
  • Comment estimer la croissance des données
  • Études de cas

Jour-5 : Session 4 : Revue des fournisseurs de Big Data et de leurs produits. Session de Q/A :

  • Accenture
  • APTEAN (anciennement CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (anciennement 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Partie d'EMC)

Pré requis

  • Connaissance de base des opérations commerciales et des systèmes de données gouvernementaux dans leur domaine
  • Compréhension de base de SQL/Oracle ou des bases de données relationnelles
  • Compréhension de base des statistiques (au niveau tableurs)
 35 Heures

Nombre de participants


Prix par participant

Nos clients témoignent (1)

Cours à venir

Catégories Similaires