Formation Streaming des données et traitement en temps réel
Présentation du cours
Ce cours propose une introduction pratique et structurée à la conception de systèmes de streaming de données en temps réel. Il couvre les concepts fondamentaux, les modèles d'architecture et les outils industriels utilisés pour traiter des données continues à grande échelle. Les participants apprendront à concevoir, implémenter et optimiser des pipelines de streaming à l'aide de frameworks modernes. Le cours progresse des idées de base vers des applications concrètes, permettant aux apprenants de construire avec confiance des solutions temps réel prêtes pour la production.
Format de la formation
• Séances dirigées par un formateur avec des explications guidées
• Explications de concepts illustrées par des exemples concrets
• Démonstrations pratiques et exercices de codage
• Laboratoires progressifs alignés sur les sujets quotidiens
• Discussions interactives et sessions de questions-réponses
Objectifs du cours
• Comprendre les concepts du streaming de données en temps réel et l'architecture des systèmes
• Différencier les modèles de traitement par lots (batch) et par streaming
• Concevoir des pipelines de streaming évolutifs et tolérants aux pannes
• Utiliser des outils et frameworks de streaming distribués
• Appliquer le traitement basé sur l'heure des événements, le fenêtrage et les opérations avec état
Construire et optimiser des solutions de données en temps réel adaptées aux cas d'utilisation métier
Plan du cours
Programme du cours - Jour 1
• Introduction aux concepts du streaming de données
• Fondamentaux du traitement par lots versus en temps réel
• Bases de l'architecture événementielle
• Cas d'usage courants dans l'industrie
• Vue d'ensemble de l'écosystème de streaming
Jour 2
• Modèles de conception de l'architecture de streaming
• Fondamentaux des systèmes de messagerie distribuée
• Producteurs et consommateurs
• Sujets, partitions et flux de données
• Stratégies d'ingestion de données
Jour 3
• Concepts et frameworks de traitement de flux
• Heure des événements vs heure de traitement
• Techniques de fenêtrage et cas d'usage
• Traitement de flux avec état
• Bases de la tolérance aux pannes et de la validation (checkpointing)
Jour 4
• Transformation des données dans les pipelines de streaming
• ETL et ELT dans les systèmes en temps réel
• Gestion et évolution des schémas
• Jointures de flux et enrichissement de données
• Introduction aux services de streaming dans le cloud
Jour 5
• Surveillance et observabilité des systèmes de streaming
• Bases de la sécurité et du contrôle d'accès
• Optimisation et tuning des performances
• Revue de conception de pipeline de bout en bout
• Cas d'utilisation concrets tels que la détection de fraude et le traitement IoT
Les formations ouvertes requièrent plus de 3 participants.
Formation Streaming des données et traitement en temps réel - Réservation
Formation Streaming des données et traitement en temps réel - Demande de renseignements
Streaming des données et traitement en temps réel - Demande d'informations consulting
Nos clients témoignent (1)
Exercices pratiques. La formation aurait dû durer 5 jours, mais les 3 jours ont permis de clarifier beaucoup de questions que je me posais déjà en travaillant avec NiFi.
James - BHG Financial
Formation - Apache NiFi for Administrators
Traduction automatique
Cours à venir
Cours Similaires
Apache Iceberg Avancé
21 HeuresCette formation en direct, encadrée par un formateur à Belgique (en ligne ou sur site), s'adresse aux professionnels des données de niveau avancé souhaitant optimiser les flux de traitement des données, garantir l'intégrité des données et mettre en œuvre des solutions de lakehouse robustes capables de gérer les complexités des applications modernes de big data.
À l'issue de cette formation, les participants seront capables de :
- Acquérir une compréhension approfondie de l'architecture d'Iceberg, y compris la gestion des métadonnées et la disposition des fichiers.
- Configurer Iceberg pour des performances optimales dans divers environnements et l'intégrer à plusieurs moteurs de traitement de données.
- Gérer des tables Iceberg à grande échelle, effectuer des modifications de schéma complexes et gérer l'évolution des partitions.
- Maîtriser les techniques d'optimisation des performances de requête et de l'efficacité de l'analyse des données pour les grands ensembles de données.
- Mettre en œuvre des mécanismes pour garantir la cohérence des données, gérer les garanties transactionnelles et traiter les défaillances dans des environnements distribués.
Fondamentaux d'Apache Iceberg
14 HeuresCette formation en présentiel ou en ligne dans <lieu>, dirigée par un instructeur, s'adresse aux professionnels des données débutants souhaitant acquérir les connaissances et compétences nécessaires pour utiliser efficacement Apache Iceberg dans la gestion de grands volumes de données, garantir l'intégrité des données et optimiser les flux de traitement.
À l'issue de cette formation, les participants seront en mesure de :
- Acquérir une compréhension approfondie de l'architecture, des fonctionnalités et des avantages d'Apache Iceberg.
- Découvrir les formats de tables, le partitionnement, l'évolution des schémas et les capacités de voyage dans le temps (time travel).
- Installer et configurer Apache Iceberg dans différents environnements.
- Créer, gérer et manipuler des tables Iceberg.
- Comprendre le processus de migration des données depuis d'autres formats de table vers Iceberg.
Analytique des données massives avec Google Colab et Apache Spark
14 HeuresCette formation en direct, encadrée par un formateur, <lieu> (en ligne ou en présentiel), s'adresse aux data scientists et ingénieurs de niveau intermédiaire souhaitant utiliser Google Colab et Apache Spark pour le traitement et l'analyse des données massives.
À l'issue de cette formation, les participants seront capables de :
- Configurer un environnement de données massives avec Google Colab et Spark.
- Traiter et analyser de grands ensembles de données efficacement avec Apache Spark.
- Visualiser les données massives dans un environnement collaboratif.
- Intégrer Apache Spark avec des outils basés sur le cloud.
Business Intelligence Big Data pour les agences gouvernementales
35 HeuresLes avancées technologiques et l'augmentation du volume d'informations transforment la manière dont les activités commerciales sont menées dans de nombreux secteurs, y compris celui du gouvernement. La génération de données gouvernementales et les taux d'archivage numérique sont en hausse, stimulés par la croissance rapide des appareils mobiles et des applications, des capteurs et dispositifs intelligents, des solutions de cloud computing et des portails destinés aux citoyens. À mesure que les informations numériques s'étendent et deviennent plus complexes, leur gestion, leur traitement, leur stockage, leur sécurité et leur disposition finale deviennent également plus complexes. De nouveaux outils de capture, de recherche, de découverte et d'analyse aident les organisations à extraire des insights de leurs données non structurées. Le marché gouvernemental atteint un point de bascule : il prend conscience que l'information est un atout stratégique. Le gouvernement doit donc protéger, exploiter et analyser à la fois les informations structurées et non structurées pour mieux servir la population et répondre aux exigences de sa mission. Alors que les dirigeants gouvernementaux s'efforcent d'évoluer vers des organisations axées sur les données pour réussir leur mission, ils jettent les bases permettant de corréler les dépendances entre les événements, les personnes, les processus et les informations.
Des solutions gouvernementales à haute valeur seront créées par un mashing-up des technologies les plus disruptives :
- Appareils mobiles et applications
- Services cloud
- Technologies sociales et réseaux d'entreprise
- Big Data et analytique
Le Big Data est l'une des solutions intelligentes sectorielles qui permet au gouvernement de prendre de meilleures décisions en agissant sur la base des schémas révélés par l'analyse de grands volumes de données — qu'elles soient liées ou non, structurées ou non structurées.
Mais réaliser ces exploit demande bien plus que simplement accumuler des quantités massives de données. "Tirer du sens de ces volumes de Big Data nécessite des outils et technologies de pointe capables d'analyser et d'extraire des connaissances utiles de flux d'informations vastes et diversifiés", ont écrit Tom Kalil et Fen Zhao du Bureau de la Politique scientifique et technologique de la Maison-Blanche dans un article sur le blog de l'OSTP.
La Maison-Blanche a fait un pas vers l'aide aux agences pour trouver ces technologies en instaurant l'Initiative nationale de recherche et développement sur le Big Data en 2012. Cette initiative comprenait plus de 200 millions de dollars pour tirer le meilleur parti de l'explosion du Big Data et des outils nécessaires à son analyse.
Les défis posés par le Big Data sont presque aussi intimidants que sa promesse est encourageante. Le stockage efficace des données est l'un de ces défis. Comme toujours, les budgets sont serrés, donc les agences doivent minimiser le prix par mégaoctet du stockage et maintenir les données facilement accessibles pour que les utilisateurs puissent les obtenir quand et comment ils en ont besoin. La sauvegarde de masses de données aggrave ce défi.
L'analyse efficace des données est un autre défi majeur. De nombreuses agences emploient des outils commerciaux qui leur permettent de trier à travers les montagnes de données, repérant des tendances qui peuvent les aider à fonctionner plus efficacement. (Une étude récente de MeriTalk a révélé que les responsables informatiques fédéraux pensent que le Big Data pourrait aider les agences à économiser plus de 500 milliards de dollars tout en remplissant leurs objectifs de mission.).
Des outils Big Data développés sur mesure permettent également aux agences de répondre au besoin d'analyser leurs données. Par exemple, le groupe d'analytics de données computationnelles du Laboratoire national d'Oak Ridge a mis son système d'analytics Piranha à la disposition d'autres agences. Le système a aidé les chercheurs médicaux à trouver un lien qui peut alerter les médecins des anévrismes de l'aorte avant qu'ils ne surviennent. Il est également utilisé pour des tâches plus banales, telles que le tri des CV pour mettre en relation les candidats avec les responsables du recrutement.
Une introduction pratique à l'analyse de données et au Big Data - 3 jours
21 HeuresLes participants qui terminent cette formation en présentiel dispensée par un instructeur en Belgique acquerront une compréhension pratique et concrète du Big Data, ainsi que des technologies, méthodologies et outils associés.
Les participants auront l'occasion de mettre ces connaissances en pratique grâce à des exercices pratiques. Les interactions en groupe et les retours de l'instructeur constituent une composante importante du cours.
Le cours débute par une introduction aux concepts fondamentaux du Big Data, puis aborde les langages de programmation et les méthodologies utilisés pour réaliser l'analyse de données. Enfin, nous discutons des outils et de l'infrastructure qui permettent le stockage des données massives, le traitement distribué et la scalabilité.
Big Data et Analytique Avancée
42 HeuresLe Big Data et l'Analytique Avancée consistent à appliquer des techniques et des outils sophistiqués pour analyser des ensembles de données volumineux et complexes, afin d'obtenir des informations exploitables et de soutenir la prise de décision stratégique.
Ce formation en présentiel ou en ligne, animée par un formateur, s'adresse aux professionnels des données expérimentés souhaitant exploiter des méthodes analytiques de pointe et des technologies Big Data pour l'analyse prédictive, prescriptive et en temps réel.
À l'issue de cette formation, les participants seront capables de :
- Concevoir et mettre en œuvre des pipelines de traitement de données à grande échelle pour des données structurées et non structurées.
- Appliquer des techniques avancées de machine learning et de deep learning à des ensembles de données massifs.
- Exploiter des frameworks de calcul distribué pour l'analyse en temps réel et le streaming de données.
- Intégrer l'analytique Big Data aux systèmes de business intelligence (BI) et de prise de décision.
Format de la formation
- Conférence interactive et échanges.
- De nombreux exercices et mises en pratique.
- Implémentation pratique dans un environnement de laboratoire live.
Options de personnalisation de la formation
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser cela.
Apache NiFi pour les administrateurs
21 HeuresApache NiFi est une plateforme d'intégration de données et de traitement d'événements open-source basée sur des flux. Elle permet le routage, la transformation et la médiation système automatisés et en temps réel entre des systèmes hétérogènes, grâce à une interface web et un contrôle granulaire.
Cette formation dirigée par un instructeur (en présentiel ou à distance) s'adresse aux administrateurs et ingénieurs de niveau intermédiaire souhaitant déployer, gérer, sécuriser et optimiser les flux de données NiFi dans des environnements de production.
À l'issue de cette formation, les participants seront capables de :
- Installer, configurer et maintenir des clusters Apache NiFi.
- Concevoir et gérer des flux de données provenant de diverses sources et destinations.
- Mettre en œuvre l'automatisation des flux, le routage et la logique de transformation.
- Optimiser les performances, surveiller les opérations et résoudre les problèmes.
Format du cours
- Conférence interactive accompagnée d'une discussion sur l'architecture réelle.
- Travaux pratiques : création, déploiement et gestion des flux.
- Exercices basés sur des scénarios dans un environnement de laboratoire en direct.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter afin d'en convenir.
PySpark et Machine Learning
21 HeuresCette formation propose une introduction pratique à la création de flux de traitement de données et de Machine Learning évolutifs à l'aide de PySpark. Les participants apprendront comment Apache Spark s'insère dans les écosystèmes modernes de Big Data et comment traiter efficacement de grands volumes de données en appliquant les principes du calcul distribué.
Fondamentaux d'Apache Spark
21 HeuresCette formation en présentiel ou en ligne, animée par un formateur, s'adresse aux ingénieurs souhaitant mettre en place et déployer un système Apache Spark pour traiter de très grands volumes de données.
À l'issue de cette formation, les participants seront capables de :
- Installer et configurer Apache Spark.
- Traiter et analyser rapidement de très grands ensembles de données.
- Comprendre les différences entre Apache Spark et Hadoop MapReduce, et savoir quand utiliser l'un ou l'autre.
- Intégrer Apache Spark avec d'autres outils d'apprentissage automatique.
Administration d'Apache Spark
35 HeuresCette formation en direct, animée par un formateur, à Belgique (en ligne ou en présentiel), s'adresse aux administrateurs système de niveau débutant à intermédiaire souhaitant déployer, maintenir et optimiser des clusters Spark.
À l'issue de cette formation, les participants seront en mesure de :
- Installer et configurer Apache Spark dans divers environnements.
- Gérer les ressources des clusters et surveiller les applications Spark.
- Optimiser les performances des clusters Spark.
- Mettre en œuvre des mesures de sécurité et garantir une haute disponibilité.
- Dépanner et résoudre les problèmes courants de Spark.
Apache Spark dans le Cloud
21 HeuresLa courbe d'apprentissage d'Apache Spark est relativement raide au début, et il faut beaucoup d'efforts pour en obtenir les premiers bénéfices. Ce cours vise à franchir rapidement cette phase initiale difficile. À l'issue de ce module, les participants comprendront les fondamentaux d'Apache Spark, sauront distinguer clairement les RDD des DataFrame, maîtriseront les API Python et Scala, ainsi que le fonctionnement des exécuteurs et des tâches, entre autres. En suivant les bonnes pratiques, ce cours accorde une forte importance au déploiement dans le cloud, à Databricks et à AWS. Les élèves apprendront également à différencier AWS EMR et AWS Glue, l'un des derniers services Spark proposés par AWS.
PUBLIC CIBLE :
Ingénieur Data, DevOps, Data Scientist
Python et Spark pour le Big Data (PySpark)
21 HeuresLors de cette formation en présentiel animée par un formateur à Belgique, les participants apprendront à utiliser Python et Spark conjointement pour analyser le big data, en réalisant des exercices pratiques.
À l'issue de cette formation, les participants seront capables de :
- Utiliser Spark avec Python pour analyser le Big Data.
- Réaliser des exercices simulant des cas concrets.
- Utiliser différents outils et techniques d'analyse du big data avec PySpark.
Python, Spark et Hadoop pour le Big Data
21 HeuresCette formation en présentiel ou en ligne Belgique, encadrée par un instructeur, s'adresse aux développeurs souhaitant utiliser et intégrer Spark, Hadoop et Python pour traiter, analyser et transformer des ensembles de données volumineux et complexes.
À l'issue de cette formation, les participants seront capables de :
- Mettre en place l'environnement nécessaire pour commencer à traiter des mégadonnées avec Spark, Hadoop et Python.
- Comprendre les fonctionnalités, les composants clés et l'architecture de Spark et Hadoop.
- Apprendre à intégrer Spark, Hadoop et Python pour le traitement des mégadonnées.
- Explorer les outils de l'écosystème Spark (Spark MLlib, Spark Streaming, Kafka, Sqoop, Flume).
- Construire des systèmes de recommandation par filtrage collaboratif similaires à ceux de Netflix, YouTube, Amazon, Spotify et Google.
- Utiliser Apache Mahout pour mettre à l'échelle les algorithmes d'apprentissage automatique.
Stratio : Modules Rocket et Intelligence avec PySpark
14 HeuresStratio est une plateforme centrée sur les données qui intègre le big data, l'IA et la gouvernance dans une solution unique. Ses modules Rocket et Intelligence permettent une exploration rapide des données, leur transformation et des analyses avancées dans les environnements d'entreprise.
Cette formation en direct, animée par un formateur (en ligne ou sur site), s'adresse aux professionnels des données de niveau intermédiaire souhaitant utiliser efficacement les modules Rocket et Intelligence de Stratio avec PySpark, en mettant l'accent sur les structures de bouclage, les fonctions définies par l'utilisateur et la logique des données avancée.
À l'issue de cette formation, les participants seront capables de :
- Naviguer et travailler au sein de la plateforme Stratio en utilisant les modules Rocket et Intelligence.
- Appliquer PySpark dans le cadre de l'ingestion, de la transformation et de l'analyse des données.
- Utiliser les boucles et la logique conditionnelle pour contrôler les flux de données et les tâches d'ingénierie des fonctionnalités (feature engineering).
- Créer et gérer des fonctions définies par l'utilisateur (UDF) pour des opérations de données réutilisables dans PySpark.
Format de la formation
- Conférence interactive et discussions.
- Nombreux exercices et pratiques.
- Mise en œuvre pratique dans un environnement de laboratoire en direct.
Options de personnalisation de la formation
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter afin de l'organiser.