Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Chaque session dure 2 heures
Jour-1 : Session -1 : Aperçu des affaires sur le Business Intelligence Big Data dans le secteur gouvernemental
- Études de cas du NIH, du DoE
- Taux d'adoption du Big Data dans les agences gouvernementales et comment elles alignent leurs opérations futures autour des prévisions analytiques du Big Data
- Domaines d'application à grande échelle au sein du DoD, NSA, IRS, USDA, etc.
- Interface entre le Big Data et les données héritées
- Compréhension de base des technologies de support en analyse prédictive
- Intégration des données et visualisation de tableaux de bord
- Gestion de la fraude
- Génération de règles commerciales/détection de fraude
- Détection des menaces et profilage
- Analyse coûts-avantages pour la mise en œuvre du Big Data
Jour-1 : Session-2 : Introduction au Big Data-1
- Caractéristiques principales du Big Data : volume, variété, vélocité et véracité. Architecture MPP pour le volume.
- Entrepôts de données – schéma statique, ensemble de données à évolution lente
- Bases de données MPP comme Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
- Solutions basées sur Hadoop – aucune condition sur la structure de l'ensemble de données.
- Schéma typique : HDFS, MapReduce (crunch), récupération depuis HDFS
- Lots – adaptés à l'analyse/non interactif
- Volume : données de streaming CEP
- Choix typiques – produits CEP (ex. Infostreams, Apama, MarkLogic, etc)
- Prêt pour la production moins avancé – Storm/S4
- Bases de données NoSQL – (colonnaires et clé-valeur) : les plus adaptées en tant qu'adjonct analytique à l'entrepôt/base de données
Jour-1 : Session -3 : Introduction au Big Data-2
Solutions NoSQL
- Stockage KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Stockage KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Stockage KV (Hiérarchique) - GT.m, Cache
- Stockage KV (Ordonné) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- Cache KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Stockage de tuples - Gigaspaces, Coord, Apache River
- Bases de données objets - ZopeDB, DB40, Shoal
- Stockage de documents - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, Bases XML, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Stockage large colonnaire - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variantes de données : Introduction aux problèmes de nettoyage de données dans le Big Data
- RDBMS – structure/schéma statique, ne favorise pas un environnement agile et exploratoire.
- NoSQL – semi-structuré, suffisamment de structure pour stocker les données sans schéma exact préalable.
- Problèmes de nettoyage des données
Jour-1 : Session-4 : Introduction au Big Data-3 : Hadoop
- Quand sélectionner Hadoop ?
- STRUCTURÉ – Les entrepôts/bases de données d'entreprise peuvent stocker des données massives (à un coût) mais imposent une structure (pas idéal pour l'exploration active)
- Données SEMI-STRUCTURÉES – difficiles à traiter avec des solutions traditionnelles (EDB/BD)
- La mise en entrepôt de données = EFFORT ÉNORME et statique même après implémentation
- Pour la variété et le volume de données, traitées sur du matériel générique – HADOOP
- Matériel générique requis pour créer un cluster Hadoop
Introduction à MapReduce /HDFS
- MapReduce – distribution du calcul sur plusieurs serveurs
- HDFS – rend les données disponibles localement pour le processus de calcul (avec redondance)
- Données – peuvent être non structurées/sans schéma (contrairement à la RDBMS)
- Responsabilité du développeur de donner du sens aux données
- Programmation MapReduce = travail avec Java (avantages/inconvénients), chargement manuel des données dans HDFS
Jour-2 : Session-1 : Écosystème Big Data - Construction d'un ETL Big Data : univers des outils Big Data - lesquels utiliser et quand ?
- Hadoop vs autres solutions NoSQL
- Pour un accès interactif et aléatoire aux données
- Hbase (base de données orientée colonnes) sur Hadoop
- Accès aléatoire aux données mais avec des restrictions imposées (max 1 Po)
- Pas idéal pour l'ad-hoc analytics, bon pour les logs, les comptages, les séries temporelles
- Sqoop - Import depuis des bases de données vers Hive ou HDFS (accès JDBC/ODBC)
- Flume – Flux de données (ex. logs) vers HDFS
Jour-2 : Session-2 : Système de gestion Big Data
- Composants mobiles, nœuds de calcul démarrent/échouent : ZooKeeper - Pour les services de configuration/coordination/naming
- Pipeline/workflow complexe : Oozie – gérer le workflow, les dépendances, la chaîne de margaritas
- Déploiement, configuration, gestion de cluster, mise à niveau, etc. (admin système) : Ambari
- Dans le Cloud : Whirr
Jour-2 : Session-3 : Analyse prédictive dans le Business Intelligence -1 : Techniques fondamentales et BI basée sur l'apprentissage automatique :
- Introduction à l'apprentissage automatique
- Apprentissage des techniques de classification
- Prédiction bayésienne - préparation du fichier d'entraînement
- Machines à vecteurs de support
- KNN p-Tree Algèbre & minage vertical
- Réseau neuronal
- Problème de grandes variables du Big Data - Forêt aléatoire (RF)
- Problème d'automatisation du Big Data – RF à ensemble multi-modèles
- Automatisation par Soft10-M
- Outil d'analyse textuelle - Treeminer
- Apprentissage agile
- Apprentissage par agents
- Apprentissage distribué
- Introduction aux outils open source pour l'analyse prédictive : R, Rapidminer, Mahout
Jour-2 : Session-4 Écosystème d'analyse prédictive-2 : Problèmes courants d'analytique prédictive dans le secteur gouvernemental
- Analytique d'insight
- Analytique de visualisation
- Analytique prédictive structurée
- Analytique prédictive non structurée
- Profilage de menaces/fraudeurs/fournisseurs
- Moteur de recommandation
- Détection de schémas
- Découverte de règles/scénarios – échec, fraude, optimisation
- Découverte de la cause racine
- Analyse des sentiments
- Analytique CRM
- Analytique réseau
- Analytique textuelle
- Examen assisté par technologie
- Analytique de fraude
- Analytique en temps réel
Jour-3 : Session-1 : Analyse en temps réel et évolutive sur Hadoop
- Pourquoi les algorithmes d'analyse courants échouent sur Hadoop/HDFS
- Apache Hama - pour le calcul distribué synchrone par blocs
- Apache SPARK - pour le calcul de cluster en temps réel
- CMU Graphics Lab2 - Approche asynchrone basée sur les graphes pour le calcul distribué
- Approche basée sur l'algèbre p-KNN de Treeminer pour réduire le coût matériel de fonctionnement
Jour-3 : Session-2 : Outils pour eDiscovery et la criminalistique
- eDiscovery sur Big Data vs Données héritées – une comparaison des coûts et des performances
- Codage prédictif et examen assisté par technologie (TAR)
- Démonstration en direct d'un produit TAR (vMiner) pour comprendre comment TAR fonctionne pour une découverte plus rapide
- Indexation plus rapide via HDFS – vélocité des données
- TAL ou Traitement Automatique des Langues – diverses techniques et produits open source
- eDiscovery en langues étrangères - technologie pour le traitement des langues étrangères
Jour-3 : Session 3 : Business Intelligence Big Data pour la Cybersécurité – Comprendre la vue globale à 360 degrés de la collecte rapide de données à l'identification des menaces
- Compréhension des bases de l'analytique de sécurité - surface d'attaque, mauvaise configuration de sécurité, défenses hôtes
- Infrastructure réseau / grand pipeline de données / Réponse ETL pour l'analyse en temps réel
- Prescriptif vs prédictif – règles fixes vs découverte automatique des règles de menace à partir des métadonnées
Jour-3 : Session 4 : Big Data au USDA : Applications en agriculture
- Introduction à l'IoT (Internet des Objets) pour l'agriculture – données de capteurs et contrôle basé sur le Big Data
- Introduction à l'imagerie satellite et ses applications en agriculture
- Intégration des données de capteurs et d'images pour la fertilité du sol, les recommandations de culture et la prévision
- Assurance agricole et Big Data
- Prévision des pertes de récoltes
Jour-4 : Session-1 : Prévention de la fraude par BI à partir du Big Data dans le secteur gouvernemental : Analytique de la fraude :
- Classification de base de l'analytique de fraude – basée sur les règles vs analytique prédictive
- Apprentissage supervisé vs non supervisé pour la détection de schémas de fraude
- Fraude des fournisseurs/surestimation des coûts de projets
- Fraude Medicare et Medicaid – techniques de détection de fraude pour le traitement des réclamations
- Fraudes sur les remboursements de voyages
- Fraudes sur les remboursements d'impôts IRS
- Des études de cas et des démonstrations en direct seront fournies chaque fois que les données sont disponibles.
Jour-4 : Session-2 : Analytique des réseaux sociaux - Rassemblement et analyse de renseignements
- API ETL Big Data pour l'extraction des données des réseaux sociaux
- Texte, images, métadonnées et vidéo
- Analyse des sentiments à partir des flux des réseaux sociaux
- Filtrage contextuel et non contextuel des flux des réseaux sociaux
- Tableau de bord des réseaux sociaux pour intégrer les divers réseaux sociaux
- Profilage automatisé des profils des réseaux sociaux
- Une démonstration en direct de chaque analytique sera fournie via l'outil Treeminer.
Jour-4 : Session-3 : Analytique Big Data dans le traitement d'images et les flux vidéo
- Techniques de stockage d'images dans le Big Data - Solution de stockage pour des données dépassant le pétaoctet
- LTFS et LTO
- GPFS-LTFS (Solution de stockage en couches pour les grandes données d'images)
- Fondamentaux de l'analytique d'images
- Reconnaissance d'objets
- Segmentation d'images
- Suivi de mouvement
- Reconstruction d'images 3D
Jour-4 : Session-4 : Applications du Big Data au NIH :
- Domaines émergents de la bio-informatique
- Métagenomique et problèmes de minage de données Big Data
- Analytique prédictive Big Data pour la pharmacogénomique, la métabolomique et la protéomique
- Big Data dans le processus génomique aval
- Application de l'analytique prédictive Big Data dans la santé publique
Tableau de bord Big Data pour l'accessibilité rapide de diverses données et affichage :
- Intégration de la plateforme d'applications existante avec le Tableau de bord Big Data
- Gestion du Big Data
- Étude de cas du Tableau de bord Big Data : Tableau et Pentaho
- Utiliser l'application Big Data pour pousser les services géolocalisés dans le secteur gouvernemental.
- Système de suivi et gestion
Jour-5 : Session-1 : Comment justifier la mise en œuvre du Business Intelligence Big Data au sein d'une organisation :
- Définir le ROI pour la mise en œuvre du Big Data
- Études de cas pour économiser le temps des analystes pour la collecte et la préparation des données – augmentation du gain de productivité
- Études de cas de gains de revenus grâce à l'économie sur les coûts de base de données sous licence
- Gains de revenus des services géolocalisés
- Économies de la prévention de la fraude
- Une approche de tableur intégrée pour calculer les dépenses approximatives vs le gain/économies de revenus de la mise en œuvre du Big Data.
Jour-5 : Session-2 : Procédure étape par étape pour remplacer le système de données hérité par un système Big Data :
- Compréhension de la feuille de route pratique de migration Big Data
- Quelles informations importantes sont nécessaires avant d'architecturer une mise en œuvre du Big Data
- Quelles sont les différentes manières de calculer le volume, la vélocité, la variété et la véracité des données
- Comment estimer la croissance des données
- Études de cas
Jour-5 : Session 4 : Revue des fournisseurs de Big Data et de leurs produits. Session de Q/A :
- Accenture
- APTEAN (anciennement CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (anciennement 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Partie d'EMC)
Pré requis
- Connaissance de base des opérations commerciales et des systèmes de données gouvernementaux dans leur domaine
- Compréhension de base de SQL/Oracle ou des bases de données relationnelles
- Compréhension de base des statistiques (au niveau tableurs)
35 Heures
Nos clients témoignent (1)
La capacité du formateur à aligner le cours sur les exigences de l'organisation, et non simplement à le dispenser pour le principe de sa livraison.
Masilonyane - Revenue Services Lesotho
Formation - Big Data Business Intelligence for Govt. Agencies
Traduction automatique