Formation IBM DataStage pour administrateurs et développeurs
IBM DataStage est un outil puissant d'extraction, transformation et chargement (ETL) utilisé dans l'entrepôt de données et l'intelligence économique. Il aide les organisations à intégrer et transformer d'importants volumes de données provenant de diverses sources pour les aligner sur un format unifié.
Cette formation en direct avec instructeur (en ligne ou sur site) s'adresse aux professionnels de l'informatique de niveau intermédiaire souhaitant acquérir une compréhension approfondie d'IBM DataStage d'un point de vue administratif et développement. Cela leur permet de gérer et d'utiliser efficacement cet outil dans leur environnement professionnel.
À l'issue de cette formation, les participants seront capables de :
- Comprendre les concepts fondamentaux de DataStage.
- Apprendre à installer, configurer et gérer efficacement les environnements DataStage.
- Se connecter à diverses sources de données et extraire efficacement les données depuis des bases de données, des fichiers plats et des sources externes.
- Mettre en œuvre des techniques de chargement de données performantes.
Format de la formation
- Cours interactif et discussions.
- De nombreux exercices et mises en pratique.
- Implémentation pratique dans un environnement de laboratoire en direct.
Options de personnalisation de la formation
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour arranger cela.
Plan du cours
Introduction à DataStage
- Aperçu du processus ETL
- Compréhension de l'architecture de DataStage
- Composants clés de DataStage
Administration DataStage
- Installation et configuration
- Gestion des utilisateurs et de la sécurité
- Configuration des projets et gestion de l'environnement
- Planification et gestion des tâches
- Procédures de sauvegarde et de restauration
Techniques d'extraction des données
- Connexion à diverses sources de données
- Extraction des données depuis des bases de données, des fichiers plats et des sources externes
- Bonnes pratiques pour l'extraction des données
Transformation des données avec DataStage
- Compréhension du designer DataStage
- Travail avec différents types d'étapes
- Mise en œuvre de la logique métier dans les transformations
- Techniques avancées de transformation des données
Chargement et intégration des données
- Chargement des données dans les systèmes cibles
- Assurance de la qualité et de l'intégrité des données
- Gestion des erreurs et journalisation
Réglage des performances et optimisation
- Bonnes pratiques pour le réglage des performances
- Gestion des ressources
- Séquençage et parallélisme des tâches
Sujets avancés
- Travail avec DataStage Director
- Débogage et résolution de problèmes
Résumé et prochaines étapes
Pré requis
- Compréhension de base des concepts de bases de données
- Familiarité avec SQL et les principes des entrepôts de données
Audience
- Professionnels de l'informatique
- Administrateurs de bases de données
- Développeurs
Les formations ouvertes requièrent plus de 3 participants.
Formation IBM DataStage pour administrateurs et développeurs - Réservation
Formation IBM DataStage pour administrateurs et développeurs - Demande de renseignements
IBM DataStage pour administrateurs et développeurs - Demande d'informations consulting
Nos clients témoignent (1)
Exercices pratiques. La formation aurait dû durer 5 jours, mais les 3 jours ont permis de clarifier beaucoup de questions que je me posais déjà en travaillant avec NiFi.
James - BHG Financial
Formation - Apache NiFi for Administrators
Traduction automatique
Cours à venir
Cours Similaires
Apache Iceberg Avancé
21 HeuresCette formation en direct, encadrée par un formateur à Belgique (en ligne ou sur site), s'adresse aux professionnels des données de niveau avancé souhaitant optimiser les flux de traitement des données, garantir l'intégrité des données et mettre en œuvre des solutions de lakehouse robustes capables de gérer les complexités des applications modernes de big data.
À l'issue de cette formation, les participants seront capables de :
- Acquérir une compréhension approfondie de l'architecture d'Iceberg, y compris la gestion des métadonnées et la disposition des fichiers.
- Configurer Iceberg pour des performances optimales dans divers environnements et l'intégrer à plusieurs moteurs de traitement de données.
- Gérer des tables Iceberg à grande échelle, effectuer des modifications de schéma complexes et gérer l'évolution des partitions.
- Maîtriser les techniques d'optimisation des performances de requête et de l'efficacité de l'analyse des données pour les grands ensembles de données.
- Mettre en œuvre des mécanismes pour garantir la cohérence des données, gérer les garanties transactionnelles et traiter les défaillances dans des environnements distribués.
Fondamentaux d'Apache Iceberg
14 HeuresCette formation en présentiel ou en ligne dans <lieu>, dirigée par un instructeur, s'adresse aux professionnels des données débutants souhaitant acquérir les connaissances et compétences nécessaires pour utiliser efficacement Apache Iceberg dans la gestion de grands volumes de données, garantir l'intégrité des données et optimiser les flux de traitement.
À l'issue de cette formation, les participants seront en mesure de :
- Acquérir une compréhension approfondie de l'architecture, des fonctionnalités et des avantages d'Apache Iceberg.
- Découvrir les formats de tables, le partitionnement, l'évolution des schémas et les capacités de voyage dans le temps (time travel).
- Installer et configurer Apache Iceberg dans différents environnements.
- Créer, gérer et manipuler des tables Iceberg.
- Comprendre le processus de migration des données depuis d'autres formats de table vers Iceberg.
Analytique des données massives avec Google Colab et Apache Spark
14 HeuresCette formation en direct, encadrée par un formateur, <lieu> (en ligne ou en présentiel), s'adresse aux data scientists et ingénieurs de niveau intermédiaire souhaitant utiliser Google Colab et Apache Spark pour le traitement et l'analyse des données massives.
À l'issue de cette formation, les participants seront capables de :
- Configurer un environnement de données massives avec Google Colab et Spark.
- Traiter et analyser de grands ensembles de données efficacement avec Apache Spark.
- Visualiser les données massives dans un environnement collaboratif.
- Intégrer Apache Spark avec des outils basés sur le cloud.
Business Intelligence Big Data pour les agences gouvernementales
35 HeuresLes avancées technologiques et l'augmentation du volume d'informations transforment la manière dont les activités commerciales sont menées dans de nombreux secteurs, y compris celui du gouvernement. La génération de données gouvernementales et les taux d'archivage numérique sont en hausse, stimulés par la croissance rapide des appareils mobiles et des applications, des capteurs et dispositifs intelligents, des solutions de cloud computing et des portails destinés aux citoyens. À mesure que les informations numériques s'étendent et deviennent plus complexes, leur gestion, leur traitement, leur stockage, leur sécurité et leur disposition finale deviennent également plus complexes. De nouveaux outils de capture, de recherche, de découverte et d'analyse aident les organisations à extraire des insights de leurs données non structurées. Le marché gouvernemental atteint un point de bascule : il prend conscience que l'information est un atout stratégique. Le gouvernement doit donc protéger, exploiter et analyser à la fois les informations structurées et non structurées pour mieux servir la population et répondre aux exigences de sa mission. Alors que les dirigeants gouvernementaux s'efforcent d'évoluer vers des organisations axées sur les données pour réussir leur mission, ils jettent les bases permettant de corréler les dépendances entre les événements, les personnes, les processus et les informations.
Des solutions gouvernementales à haute valeur seront créées par un mashing-up des technologies les plus disruptives :
- Appareils mobiles et applications
- Services cloud
- Technologies sociales et réseaux d'entreprise
- Big Data et analytique
Le Big Data est l'une des solutions intelligentes sectorielles qui permet au gouvernement de prendre de meilleures décisions en agissant sur la base des schémas révélés par l'analyse de grands volumes de données — qu'elles soient liées ou non, structurées ou non structurées.
Mais réaliser ces exploit demande bien plus que simplement accumuler des quantités massives de données. "Tirer du sens de ces volumes de Big Data nécessite des outils et technologies de pointe capables d'analyser et d'extraire des connaissances utiles de flux d'informations vastes et diversifiés", ont écrit Tom Kalil et Fen Zhao du Bureau de la Politique scientifique et technologique de la Maison-Blanche dans un article sur le blog de l'OSTP.
La Maison-Blanche a fait un pas vers l'aide aux agences pour trouver ces technologies en instaurant l'Initiative nationale de recherche et développement sur le Big Data en 2012. Cette initiative comprenait plus de 200 millions de dollars pour tirer le meilleur parti de l'explosion du Big Data et des outils nécessaires à son analyse.
Les défis posés par le Big Data sont presque aussi intimidants que sa promesse est encourageante. Le stockage efficace des données est l'un de ces défis. Comme toujours, les budgets sont serrés, donc les agences doivent minimiser le prix par mégaoctet du stockage et maintenir les données facilement accessibles pour que les utilisateurs puissent les obtenir quand et comment ils en ont besoin. La sauvegarde de masses de données aggrave ce défi.
L'analyse efficace des données est un autre défi majeur. De nombreuses agences emploient des outils commerciaux qui leur permettent de trier à travers les montagnes de données, repérant des tendances qui peuvent les aider à fonctionner plus efficacement. (Une étude récente de MeriTalk a révélé que les responsables informatiques fédéraux pensent que le Big Data pourrait aider les agences à économiser plus de 500 milliards de dollars tout en remplissant leurs objectifs de mission.).
Des outils Big Data développés sur mesure permettent également aux agences de répondre au besoin d'analyser leurs données. Par exemple, le groupe d'analytics de données computationnelles du Laboratoire national d'Oak Ridge a mis son système d'analytics Piranha à la disposition d'autres agences. Le système a aidé les chercheurs médicaux à trouver un lien qui peut alerter les médecins des anévrismes de l'aorte avant qu'ils ne surviennent. Il est également utilisé pour des tâches plus banales, telles que le tri des CV pour mettre en relation les candidats avec les responsables du recrutement.
Une introduction pratique à l'analyse de données et au Big Data - 3 jours
21 HeuresLes participants qui terminent cette formation en présentiel dispensée par un instructeur en Belgique acquerront une compréhension pratique et concrète du Big Data, ainsi que des technologies, méthodologies et outils associés.
Les participants auront l'occasion de mettre ces connaissances en pratique grâce à des exercices pratiques. Les interactions en groupe et les retours de l'instructeur constituent une composante importante du cours.
Le cours débute par une introduction aux concepts fondamentaux du Big Data, puis aborde les langages de programmation et les méthodologies utilisés pour réaliser l'analyse de données. Enfin, nous discutons des outils et de l'infrastructure qui permettent le stockage des données massives, le traitement distribué et la scalabilité.
Big Data et Analytique Avancée
42 HeuresLe Big Data et l'Analytique Avancée consistent à appliquer des techniques et des outils sophistiqués pour analyser des ensembles de données volumineux et complexes, afin d'obtenir des informations exploitables et de soutenir la prise de décision stratégique.
Ce formation en présentiel ou en ligne, animée par un formateur, s'adresse aux professionnels des données expérimentés souhaitant exploiter des méthodes analytiques de pointe et des technologies Big Data pour l'analyse prédictive, prescriptive et en temps réel.
À l'issue de cette formation, les participants seront capables de :
- Concevoir et mettre en œuvre des pipelines de traitement de données à grande échelle pour des données structurées et non structurées.
- Appliquer des techniques avancées de machine learning et de deep learning à des ensembles de données massifs.
- Exploiter des frameworks de calcul distribué pour l'analyse en temps réel et le streaming de données.
- Intégrer l'analytique Big Data aux systèmes de business intelligence (BI) et de prise de décision.
Format de la formation
- Conférence interactive et échanges.
- De nombreux exercices et mises en pratique.
- Implémentation pratique dans un environnement de laboratoire live.
Options de personnalisation de la formation
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser cela.
Apache NiFi pour les administrateurs
21 HeuresApache NiFi est une plateforme d'intégration de données et de traitement d'événements open-source basée sur des flux. Elle permet le routage, la transformation et la médiation système automatisés et en temps réel entre des systèmes hétérogènes, grâce à une interface web et un contrôle granulaire.
Cette formation dirigée par un instructeur (en présentiel ou à distance) s'adresse aux administrateurs et ingénieurs de niveau intermédiaire souhaitant déployer, gérer, sécuriser et optimiser les flux de données NiFi dans des environnements de production.
À l'issue de cette formation, les participants seront capables de :
- Installer, configurer et maintenir des clusters Apache NiFi.
- Concevoir et gérer des flux de données provenant de diverses sources et destinations.
- Mettre en œuvre l'automatisation des flux, le routage et la logique de transformation.
- Optimiser les performances, surveiller les opérations et résoudre les problèmes.
Format du cours
- Conférence interactive accompagnée d'une discussion sur l'architecture réelle.
- Travaux pratiques : création, déploiement et gestion des flux.
- Exercices basés sur des scénarios dans un environnement de laboratoire en direct.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter afin d'en convenir.
PySpark et Machine Learning
21 HeuresCette formation propose une introduction pratique à la création de flux de traitement de données et de Machine Learning évolutifs à l'aide de PySpark. Les participants apprendront comment Apache Spark s'insère dans les écosystèmes modernes de Big Data et comment traiter efficacement de grands volumes de données en appliquant les principes du calcul distribué.
Fondamentaux d'Apache Spark
21 HeuresCette formation en présentiel ou en ligne, animée par un formateur, s'adresse aux ingénieurs souhaitant mettre en place et déployer un système Apache Spark pour traiter de très grands volumes de données.
À l'issue de cette formation, les participants seront capables de :
- Installer et configurer Apache Spark.
- Traiter et analyser rapidement de très grands ensembles de données.
- Comprendre les différences entre Apache Spark et Hadoop MapReduce, et savoir quand utiliser l'un ou l'autre.
- Intégrer Apache Spark avec d'autres outils d'apprentissage automatique.
Administration d'Apache Spark
35 HeuresCette formation en direct, animée par un formateur, à Belgique (en ligne ou en présentiel), s'adresse aux administrateurs système de niveau débutant à intermédiaire souhaitant déployer, maintenir et optimiser des clusters Spark.
À l'issue de cette formation, les participants seront en mesure de :
- Installer et configurer Apache Spark dans divers environnements.
- Gérer les ressources des clusters et surveiller les applications Spark.
- Optimiser les performances des clusters Spark.
- Mettre en œuvre des mesures de sécurité et garantir une haute disponibilité.
- Dépanner et résoudre les problèmes courants de Spark.
Apache Spark dans le Cloud
21 HeuresLa courbe d'apprentissage d'Apache Spark est relativement raide au début, et il faut beaucoup d'efforts pour en obtenir les premiers bénéfices. Ce cours vise à franchir rapidement cette phase initiale difficile. À l'issue de ce module, les participants comprendront les fondamentaux d'Apache Spark, sauront distinguer clairement les RDD des DataFrame, maîtriseront les API Python et Scala, ainsi que le fonctionnement des exécuteurs et des tâches, entre autres. En suivant les bonnes pratiques, ce cours accorde une forte importance au déploiement dans le cloud, à Databricks et à AWS. Les élèves apprendront également à différencier AWS EMR et AWS Glue, l'un des derniers services Spark proposés par AWS.
PUBLIC CIBLE :
Ingénieur Data, DevOps, Data Scientist
Python et Spark pour le Big Data (PySpark)
21 HeuresLors de cette formation en présentiel animée par un formateur à Belgique, les participants apprendront à utiliser Python et Spark conjointement pour analyser le big data, en réalisant des exercices pratiques.
À l'issue de cette formation, les participants seront capables de :
- Utiliser Spark avec Python pour analyser le Big Data.
- Réaliser des exercices simulant des cas concrets.
- Utiliser différents outils et techniques d'analyse du big data avec PySpark.
Python, Spark et Hadoop pour le Big Data
21 HeuresCette formation en présentiel ou en ligne Belgique, encadrée par un instructeur, s'adresse aux développeurs souhaitant utiliser et intégrer Spark, Hadoop et Python pour traiter, analyser et transformer des ensembles de données volumineux et complexes.
À l'issue de cette formation, les participants seront capables de :
- Mettre en place l'environnement nécessaire pour commencer à traiter des mégadonnées avec Spark, Hadoop et Python.
- Comprendre les fonctionnalités, les composants clés et l'architecture de Spark et Hadoop.
- Apprendre à intégrer Spark, Hadoop et Python pour le traitement des mégadonnées.
- Explorer les outils de l'écosystème Spark (Spark MLlib, Spark Streaming, Kafka, Sqoop, Flume).
- Construire des systèmes de recommandation par filtrage collaboratif similaires à ceux de Netflix, YouTube, Amazon, Spotify et Google.
- Utiliser Apache Mahout pour mettre à l'échelle les algorithmes d'apprentissage automatique.
Stratio : Modules Rocket et Intelligence avec PySpark
14 HeuresStratio est une plateforme centrée sur les données qui intègre le big data, l'IA et la gouvernance dans une solution unique. Ses modules Rocket et Intelligence permettent une exploration rapide des données, leur transformation et des analyses avancées dans les environnements d'entreprise.
Cette formation en direct, animée par un formateur (en ligne ou sur site), s'adresse aux professionnels des données de niveau intermédiaire souhaitant utiliser efficacement les modules Rocket et Intelligence de Stratio avec PySpark, en mettant l'accent sur les structures de bouclage, les fonctions définies par l'utilisateur et la logique des données avancée.
À l'issue de cette formation, les participants seront capables de :
- Naviguer et travailler au sein de la plateforme Stratio en utilisant les modules Rocket et Intelligence.
- Appliquer PySpark dans le cadre de l'ingestion, de la transformation et de l'analyse des données.
- Utiliser les boucles et la logique conditionnelle pour contrôler les flux de données et les tâches d'ingénierie des fonctionnalités (feature engineering).
- Créer et gérer des fonctions définies par l'utilisateur (UDF) pour des opérations de données réutilisables dans PySpark.
Format de la formation
- Conférence interactive et discussions.
- Nombreux exercices et pratiques.
- Mise en œuvre pratique dans un environnement de laboratoire en direct.
Options de personnalisation de la formation
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter afin de l'organiser.