Formation Intégration Big Data Talend
Talend Open Studio for Big Data est un outil ETL open source pour le traitement des données massives. Il comprend un environnement de développement permettant d'interagir avec les sources et cibles Big Data, et d'exécuter des tâches sans avoir à écrire de code.
Cette formation en présentiel ou à distance, animée par un formateur, s'adresse aux personnes techniques souhaitant déployer Talend Open Studio for Big Data pour simplifier le processus de lecture et de traitement des données massives.
À l'issue de cette formation, les participants seront en mesure de :
- Installer et configurer Talend Open Studio for Big Data.
- Se connecter à des systèmes Big Data tels que Cloudera, HortonWorks, MapR, Amazon EMR et Apache.
- Comprendre et configurer les composants Big Data et les connecteurs d'Open Studio.
- Configurer les paramètres pour générer automatiquement du code MapReduce.
- Utiliser l'interface de glisser-déposer d'Open Studio pour exécuter des tâches Hadoop.
- Créer des prototypes de pipelines Big Data.
- Automatiser les projets d'intégration Big Data.
Format du cours
- Cours interactif et discussions.
- De nombreux exercices et pratique.
- Mise en œuvre pratique dans un environnement de laboratoire live.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser cela.
Plan du cours
Introduction
Aperçu des fonctionnalités et de l'architecture d'« Open Studio for Big Data »
Configuration d'Open Studio for Big Data
Navigation dans l'interface utilisateur
Compréhension des composants Big Data et des connecteurs
Connexion à un cluster Hadoop
Lecture et écriture de données
Traitement des données avec Hive et MapReduce
Analyse des résultats
Amélioration de la qualité des données massives
Construction d'un pipeline Big Data
Gestion des utilisateurs, groupes, rôles et projets
Déploiement d'Open Studio en production
Surveillance d'Open Studio
Dépannage
Résumé et conclusion
Pré requis
- Une compréhension des bases de données relationnelles
- Une compréhension du data warehousing
- Une compréhension des concepts ETL (Extract, Transform, Load)
Public cible
- Professionnels de l'intelligence économique
- Professionnels des bases de données
- Développeurs SQL
- Développeurs ETL
- Architectes solution
- Architectes données
- Professionnels du data warehousing
- Administrateurs système et intégrateurs
Les formations ouvertes requièrent plus de 3 participants.
Formation Intégration Big Data Talend - Réservation
Formation Intégration Big Data Talend - Demande de renseignements
Intégration Big Data Talend - Demande d'informations consulting
Nos clients témoignent (1)
Exercices pratiques. La formation aurait dû durer 5 jours, mais les 3 jours ont permis de clarifier beaucoup de questions que je me posais déjà en travaillant avec NiFi.
James - BHG Financial
Formation - Apache NiFi for Administrators
Traduction automatique
Cours à venir
Cours Similaires
Analytique des données massives avec Google Colab et Apache Spark
14 HeuresCette formation en direct, encadrée par un formateur, <lieu> (en ligne ou en présentiel), s'adresse aux data scientists et ingénieurs de niveau intermédiaire souhaitant utiliser Google Colab et Apache Spark pour le traitement et l'analyse des données massives.
À l'issue de cette formation, les participants seront capables de :
- Configurer un environnement de données massives avec Google Colab et Spark.
- Traiter et analyser de grands ensembles de données efficacement avec Apache Spark.
- Visualiser les données massives dans un environnement collaboratif.
- Intégrer Apache Spark avec des outils basés sur le cloud.
Hadoop pour Administrateurs
21 HeuresApache Hadoop est le framework le plus populaire pour le traitement des mégadonnées (Big Data) sur des grilles de serveurs. Au cours de cette formation de trois jours (optionnellement quatre jours), les participants apprendront à connaître les avantages commerciaux et les cas d'usage de Hadoop et de son écosystème, comment planifier le déploiement et l'évolution de la grille, ainsi que comment installer, maintenir, surveiller, résoudre les problèmes et optimiser Hadoop. Ils pratiqueront également le chargement en masse des données sur la grille, se familiariseront avec les différentes distributions de Hadoop et apprendront à installer et à gérer les outils de l'écosystème Hadoop. La formation se terminera par une discussion sur la sécurisation de la grille avec Kerberos.
« … Les documents étaient très bien préparés et couverts de manière approfondie. Le laboratoire était très utile et bien organisé »
— Andrew Nguyen, Ingénieur Principal en Intégration DW, Microsoft Online Advertising
Public cible
Administrateurs Hadoop
Format
Cours magistraux et travaux pratiques en laboratoire, avec un équilibre approximatif de 60 % de cours et 40 % de travaux pratiques.
Apache NiFi pour les administrateurs
21 HeuresApache NiFi est une plateforme d'intégration de données et de traitement d'événements open-source basée sur des flux. Elle permet le routage, la transformation et la médiation système automatisés et en temps réel entre des systèmes hétérogènes, grâce à une interface web et un contrôle granulaire.
Cette formation dirigée par un instructeur (en présentiel ou à distance) s'adresse aux administrateurs et ingénieurs de niveau intermédiaire souhaitant déployer, gérer, sécuriser et optimiser les flux de données NiFi dans des environnements de production.
À l'issue de cette formation, les participants seront capables de :
- Installer, configurer et maintenir des clusters Apache NiFi.
- Concevoir et gérer des flux de données provenant de diverses sources et destinations.
- Mettre en œuvre l'automatisation des flux, le routage et la logique de transformation.
- Optimiser les performances, surveiller les opérations et résoudre les problèmes.
Format du cours
- Conférence interactive accompagnée d'une discussion sur l'architecture réelle.
- Travaux pratiques : création, déploiement et gestion des flux.
- Exercices basés sur des scénarios dans un environnement de laboratoire en direct.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter afin d'en convenir.
Apache NiFi pour les développeurs
7 HeuresLors de cette formation animée par un instructeur à Belgique, les participants apprendront les principes fondamentaux de la programmation basée sur les flux tout en développant diverses extensions de démonstration, composants et processeurs à l'aide d'Apache NiFi.
À l'issue de cette formation, les participants seront en mesure de :
- Comprendre l'architecture de NiFi et les concepts liés aux flux de données.
- Développer des extensions en utilisant NiFi et des API tierces.
- Créer leurs propres processeurs Apache NiFi sur mesure.
- Ingérer et traiter des données en temps réel provenant de formats de fichiers disparates et peu courants, ainsi que de diverses sources de données.
PySpark et Machine Learning
21 HeuresCette formation propose une introduction pratique à la création de flux de traitement de données et de Machine Learning évolutifs à l'aide de PySpark. Les participants apprendront comment Apache Spark s'insère dans les écosystèmes modernes de Big Data et comment traiter efficacement de grands volumes de données en appliquant les principes du calcul distribué.
Fondamentaux d'Apache Spark
21 HeuresCette formation en présentiel ou en ligne, animée par un formateur, s'adresse aux ingénieurs souhaitant mettre en place et déployer un système Apache Spark pour traiter de très grands volumes de données.
À l'issue de cette formation, les participants seront capables de :
- Installer et configurer Apache Spark.
- Traiter et analyser rapidement de très grands ensembles de données.
- Comprendre les différences entre Apache Spark et Hadoop MapReduce, et savoir quand utiliser l'un ou l'autre.
- Intégrer Apache Spark avec d'autres outils d'apprentissage automatique.
Administration d'Apache Spark
35 HeuresCette formation en direct, animée par un formateur, à Belgique (en ligne ou en présentiel), s'adresse aux administrateurs système de niveau débutant à intermédiaire souhaitant déployer, maintenir et optimiser des clusters Spark.
À l'issue de cette formation, les participants seront en mesure de :
- Installer et configurer Apache Spark dans divers environnements.
- Gérer les ressources des clusters et surveiller les applications Spark.
- Optimiser les performances des clusters Spark.
- Mettre en œuvre des mesures de sécurité et garantir une haute disponibilité.
- Dépanner et résoudre les problèmes courants de Spark.
Apache Spark dans le Cloud
21 HeuresLa courbe d'apprentissage d'Apache Spark est relativement raide au début, et il faut beaucoup d'efforts pour en obtenir les premiers bénéfices. Ce cours vise à franchir rapidement cette phase initiale difficile. À l'issue de ce module, les participants comprendront les fondamentaux d'Apache Spark, sauront distinguer clairement les RDD des DataFrame, maîtriseront les API Python et Scala, ainsi que le fonctionnement des exécuteurs et des tâches, entre autres. En suivant les bonnes pratiques, ce cours accorde une forte importance au déploiement dans le cloud, à Databricks et à AWS. Les élèves apprendront également à différencier AWS EMR et AWS Glue, l'un des derniers services Spark proposés par AWS.
PUBLIC CIBLE :
Ingénieur Data, DevOps, Data Scientist
Python et Spark pour le Big Data (PySpark)
21 HeuresLors de cette formation en présentiel animée par un formateur à Belgique, les participants apprendront à utiliser Python et Spark conjointement pour analyser le big data, en réalisant des exercices pratiques.
À l'issue de cette formation, les participants seront capables de :
- Utiliser Spark avec Python pour analyser le Big Data.
- Réaliser des exercices simulant des cas concrets.
- Utiliser différents outils et techniques d'analyse du big data avec PySpark.
Python, Spark et Hadoop pour le Big Data
21 HeuresCette formation en présentiel ou en ligne Belgique, encadrée par un instructeur, s'adresse aux développeurs souhaitant utiliser et intégrer Spark, Hadoop et Python pour traiter, analyser et transformer des ensembles de données volumineux et complexes.
À l'issue de cette formation, les participants seront capables de :
- Mettre en place l'environnement nécessaire pour commencer à traiter des mégadonnées avec Spark, Hadoop et Python.
- Comprendre les fonctionnalités, les composants clés et l'architecture de Spark et Hadoop.
- Apprendre à intégrer Spark, Hadoop et Python pour le traitement des mégadonnées.
- Explorer les outils de l'écosystème Spark (Spark MLlib, Spark Streaming, Kafka, Sqoop, Flume).
- Construire des systèmes de recommandation par filtrage collaboratif similaires à ceux de Netflix, YouTube, Amazon, Spotify et Google.
- Utiliser Apache Mahout pour mettre à l'échelle les algorithmes d'apprentissage automatique.
Apache Spark SQL
7 HeuresSpark SQL est le module d'Apache Spark dédié au traitement des données structurées et non structurées. Il fournit des informations sur la structure des données ainsi que sur les calculs effectués, ce qui permet d'optimiser les opérations. Spark SQL est couramment utilisé pour :
- exécuter des requêtes SQL.
- lire des données à partir d'une installation Hive existante.
Lors de cette formation en présentiel ou à distance, animée par un formateur expert, les participants apprendront à analyser différents types de jeux de données à l'aide de Spark SQL.
À l'issue de cette formation, les participants seront capables de :
- Installer et configurer Spark SQL.
- Réaliser des analyses de données avec Spark SQL.
- Interroger des jeux de données dans différents formats.
- Visualiser les données et les résultats des requêtes.
Format de la formation
- Cours interactifs et débats.
- Nombreux exercices et mises en pratique.
- Mise en œuvre concrète dans un environnement de laboratoire en temps réel.
Options de personnalisation de la formation
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter afin de convenir des détails.
Stratio : Modules Rocket et Intelligence avec PySpark
14 HeuresStratio est une plateforme centrée sur les données qui intègre le big data, l'IA et la gouvernance dans une solution unique. Ses modules Rocket et Intelligence permettent une exploration rapide des données, leur transformation et des analyses avancées dans les environnements d'entreprise.
Cette formation en direct, animée par un formateur (en ligne ou sur site), s'adresse aux professionnels des données de niveau intermédiaire souhaitant utiliser efficacement les modules Rocket et Intelligence de Stratio avec PySpark, en mettant l'accent sur les structures de bouclage, les fonctions définies par l'utilisateur et la logique des données avancée.
À l'issue de cette formation, les participants seront capables de :
- Naviguer et travailler au sein de la plateforme Stratio en utilisant les modules Rocket et Intelligence.
- Appliquer PySpark dans le cadre de l'ingestion, de la transformation et de l'analyse des données.
- Utiliser les boucles et la logique conditionnelle pour contrôler les flux de données et les tâches d'ingénierie des fonctionnalités (feature engineering).
- Créer et gérer des fonctions définies par l'utilisateur (UDF) pour des opérations de données réutilisables dans PySpark.
Format de la formation
- Conférence interactive et discussions.
- Nombreux exercices et pratiques.
- Mise en œuvre pratique dans un environnement de laboratoire en direct.
Options de personnalisation de la formation
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter afin de l'organiser.
Talend Administration Center (TAC)
14 HeuresCette formation en direct, animée par un formateur en Belgique (en ligne ou sur site), s'adresse aux administrateurs système, aux data scientists et aux analystes métier qui souhaitent mettre en place Talend Administration Center pour déployer et gérer les rôles et les tâches de l'organisation.
À l'issue de cette formation, les participants seront capables de :
- Installer et configurer Talend Administration Center.
- Comprendre et mettre en œuvre les fondamentaux de la gestion Talend.
- Construire, déployer et exécuter des projets ou des tâches métier dans Talend.
- Surveiller la sécurité des jeux de données et développer des routines métier basées sur le cadre TAC.
- Obtenir une compréhension plus approfondie des applications big data.
Talend Data Stewardship
14 HeuresCette formation en présentiel ou en ligne, animée par un formateur dans Belgique s'adresse aux analystes de données de niveau débutant à intermédiaire souhaitant approfondir leurs connaissances et compétences en matière de gestion et d'amélioration de la qualité des données grâce à Talend Data Stewardship.
À l'issue de cette formation, les participants seront capables de :
- Comprendre le rôle de l'animation des données (data stewardship) dans le maintien de la qualité des données.
- Utiliser Talend Data Stewardship pour gérer les tâches liées à la qualité des données.
- Créer, affecter et gérer des tâches au sein de Talend Data Stewardship, y compris la personnalisation des workflows.
- Exploiter les capacités de reporting et de surveillance de l'outil pour suivre les efforts de qualité des données et d'animation des données.