Formation Fondamentaux d'Apache Iceberg
Apache Iceberg est un format de table open-source conçu pour les ensembles de données à grande échelle, apportant la fiabilité et la simplicité des tables SQL aux données massives. Il a été conçu pour résoudre les défis liés à la gestion des données dans les lacs de données, qui impliquent souvent la gestion de schémas complexes, de gros fichiers et de sources de données diversifiées.
Cette formation en présentiel ou en ligne, dirigée par un instructeur, s'adresse aux professionnels des données débutants souhaitant acquérir les connaissances et compétences nécessaires pour utiliser efficacement Apache Iceberg dans la gestion de grands volumes de données, garantir l'intégrité des données et optimiser les flux de traitement.
À l'issue de cette formation, les participants seront en mesure de :
- Acquérir une compréhension approfondie de l'architecture, des fonctionnalités et des avantages d'Apache Iceberg.
- Découvrir les formats de tables, le partitionnement, l'évolution des schémas et les capacités de voyage dans le temps (time travel).
- Installer et configurer Apache Iceberg dans différents environnements.
- Créer, gérer et manipuler des tables Iceberg.
- Comprendre le processus de migration des données depuis d'autres formats de table vers Iceberg.
Format de la formation
- Cours interactif et discussions.
- De nombreux exercices et pratiques.
- Mise en œuvre pratique dans un environnement de laboratoire en direct.
Options de personnalisation de la formation
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter afin d'organiser cela.
Plan du cours
Introduction à Apache Iceberg
- Aperçu d'Apache Iceberg
- Importance et cas d'utilisation dans l'architecture des données moderne
- Fonctionnalités clés et avantages
Concepts fondamentaux
- Format et architecture de la table Iceberg
- Comparaison avec d'autres formats de table
- Partitionnement et évolution des schémas
- Voyage dans le temps et versioning des données
Configuration d'Apache Iceberg
- Installation et configuration
- Intégration d'Iceberg avec divers moteurs de traitement de données
- Mise en place d'un environnement Iceberg sur une machine locale
Opérations de base
- Création et gestion des tables Iceberg
- Écriture et lecture dans les tables Iceberg
- Opérations CRUD de base
Migration et intégration des données
- Migration des données depuis Hive et d'autres systèmes vers Iceberg
- Intégration avec des outils de BI
- Migration d'un jeu de données exemple vers Iceberg
Optimisation des performances
- Techniques de réglage des performances
- Optimisation des requêtes et des scans de données
- Optimisation des performances dans Iceberg
Aperçu des fonctionnalités avancées
- Évolution des partitions et partitionnement masqué
- Évolution des tables et modifications de schéma
- Fonctionnalités de voyage dans le temps et de retour en arrière
- Implémentation des fonctionnalités avancées dans Iceberg
Résumé et prochaines étapes
Pré requis
- Connaissance des concepts tels que les tables, les schémas, les partitions et l'ingestion de données.
- Connaissances de base en SQL.
Public cible
- Ingénieurs des données
- Architectes des données
- Analystes des données
- Développeurs logiciels
Les formations ouvertes requièrent plus de 3 participants.
Formation Fondamentaux d'Apache Iceberg - Réservation
Formation Fondamentaux d'Apache Iceberg - Demande de renseignements
Fondamentaux d'Apache Iceberg - Demande d'informations consulting
Nos clients témoignent (1)
Exercices pratiques. La formation aurait dû durer 5 jours, mais les 3 jours ont permis de clarifier beaucoup de questions que je me posais déjà en travaillant avec NiFi.
James - BHG Financial
Formation - Apache NiFi for Administrators
Traduction automatique
Cours à venir
Cours Similaires
Apache Iceberg Avancé
21 HeuresCette formation en direct, encadrée par un formateur à Belgique (en ligne ou sur site), s'adresse aux professionnels des données de niveau avancé souhaitant optimiser les flux de traitement des données, garantir l'intégrité des données et mettre en œuvre des solutions de lakehouse robustes capables de gérer les complexités des applications modernes de big data.
À l'issue de cette formation, les participants seront capables de :
- Acquérir une compréhension approfondie de l'architecture d'Iceberg, y compris la gestion des métadonnées et la disposition des fichiers.
- Configurer Iceberg pour des performances optimales dans divers environnements et l'intégrer à plusieurs moteurs de traitement de données.
- Gérer des tables Iceberg à grande échelle, effectuer des modifications de schéma complexes et gérer l'évolution des partitions.
- Maîtriser les techniques d'optimisation des performances de requête et de l'efficacité de l'analyse des données pour les grands ensembles de données.
- Mettre en œuvre des mécanismes pour garantir la cohérence des données, gérer les garanties transactionnelles et traiter les défaillances dans des environnements distribués.
Analytique des données massives avec Google Colab et Apache Spark
14 HeuresCette formation en direct, encadrée par un formateur, <lieu> (en ligne ou en présentiel), s'adresse aux data scientists et ingénieurs de niveau intermédiaire souhaitant utiliser Google Colab et Apache Spark pour le traitement et l'analyse des données massives.
À l'issue de cette formation, les participants seront capables de :
- Configurer un environnement de données massives avec Google Colab et Spark.
- Traiter et analyser de grands ensembles de données efficacement avec Apache Spark.
- Visualiser les données massives dans un environnement collaboratif.
- Intégrer Apache Spark avec des outils basés sur le cloud.
Business Intelligence Big Data pour les agences gouvernementales
35 HeuresLes avancées technologiques et l'augmentation du volume d'informations transforment la manière dont les activités commerciales sont menées dans de nombreux secteurs, y compris celui du gouvernement. La génération de données gouvernementales et les taux d'archivage numérique sont en hausse, stimulés par la croissance rapide des appareils mobiles et des applications, des capteurs et dispositifs intelligents, des solutions de cloud computing et des portails destinés aux citoyens. À mesure que les informations numériques s'étendent et deviennent plus complexes, leur gestion, leur traitement, leur stockage, leur sécurité et leur disposition finale deviennent également plus complexes. De nouveaux outils de capture, de recherche, de découverte et d'analyse aident les organisations à extraire des insights de leurs données non structurées. Le marché gouvernemental atteint un point de bascule : il prend conscience que l'information est un atout stratégique. Le gouvernement doit donc protéger, exploiter et analyser à la fois les informations structurées et non structurées pour mieux servir la population et répondre aux exigences de sa mission. Alors que les dirigeants gouvernementaux s'efforcent d'évoluer vers des organisations axées sur les données pour réussir leur mission, ils jettent les bases permettant de corréler les dépendances entre les événements, les personnes, les processus et les informations.
Des solutions gouvernementales à haute valeur seront créées par un mashing-up des technologies les plus disruptives :
- Appareils mobiles et applications
- Services cloud
- Technologies sociales et réseaux d'entreprise
- Big Data et analytique
Le Big Data est l'une des solutions intelligentes sectorielles qui permet au gouvernement de prendre de meilleures décisions en agissant sur la base des schémas révélés par l'analyse de grands volumes de données — qu'elles soient liées ou non, structurées ou non structurées.
Mais réaliser ces exploit demande bien plus que simplement accumuler des quantités massives de données. "Tirer du sens de ces volumes de Big Data nécessite des outils et technologies de pointe capables d'analyser et d'extraire des connaissances utiles de flux d'informations vastes et diversifiés", ont écrit Tom Kalil et Fen Zhao du Bureau de la Politique scientifique et technologique de la Maison-Blanche dans un article sur le blog de l'OSTP.
La Maison-Blanche a fait un pas vers l'aide aux agences pour trouver ces technologies en instaurant l'Initiative nationale de recherche et développement sur le Big Data en 2012. Cette initiative comprenait plus de 200 millions de dollars pour tirer le meilleur parti de l'explosion du Big Data et des outils nécessaires à son analyse.
Les défis posés par le Big Data sont presque aussi intimidants que sa promesse est encourageante. Le stockage efficace des données est l'un de ces défis. Comme toujours, les budgets sont serrés, donc les agences doivent minimiser le prix par mégaoctet du stockage et maintenir les données facilement accessibles pour que les utilisateurs puissent les obtenir quand et comment ils en ont besoin. La sauvegarde de masses de données aggrave ce défi.
L'analyse efficace des données est un autre défi majeur. De nombreuses agences emploient des outils commerciaux qui leur permettent de trier à travers les montagnes de données, repérant des tendances qui peuvent les aider à fonctionner plus efficacement. (Une étude récente de MeriTalk a révélé que les responsables informatiques fédéraux pensent que le Big Data pourrait aider les agences à économiser plus de 500 milliards de dollars tout en remplissant leurs objectifs de mission.).
Des outils Big Data développés sur mesure permettent également aux agences de répondre au besoin d'analyser leurs données. Par exemple, le groupe d'analytics de données computationnelles du Laboratoire national d'Oak Ridge a mis son système d'analytics Piranha à la disposition d'autres agences. Le système a aidé les chercheurs médicaux à trouver un lien qui peut alerter les médecins des anévrismes de l'aorte avant qu'ils ne surviennent. Il est également utilisé pour des tâches plus banales, telles que le tri des CV pour mettre en relation les candidats avec les responsables du recrutement.
Hadoop pour Administrateurs
21 HeuresApache Hadoop est le framework le plus populaire pour le traitement des mégadonnées (Big Data) sur des grilles de serveurs. Au cours de cette formation de trois jours (optionnellement quatre jours), les participants apprendront à connaître les avantages commerciaux et les cas d'usage de Hadoop et de son écosystème, comment planifier le déploiement et l'évolution de la grille, ainsi que comment installer, maintenir, surveiller, résoudre les problèmes et optimiser Hadoop. Ils pratiqueront également le chargement en masse des données sur la grille, se familiariseront avec les différentes distributions de Hadoop et apprendront à installer et à gérer les outils de l'écosystème Hadoop. La formation se terminera par une discussion sur la sécurisation de la grille avec Kerberos.
« … Les documents étaient très bien préparés et couverts de manière approfondie. Le laboratoire était très utile et bien organisé »
— Andrew Nguyen, Ingénieur Principal en Intégration DW, Microsoft Online Advertising
Public cible
Administrateurs Hadoop
Format
Cours magistraux et travaux pratiques en laboratoire, avec un équilibre approximatif de 60 % de cours et 40 % de travaux pratiques.
Apache NiFi pour les administrateurs
21 HeuresApache NiFi est une plateforme d'intégration de données et de traitement d'événements open-source basée sur des flux. Elle permet le routage, la transformation et la médiation système automatisés et en temps réel entre des systèmes hétérogènes, grâce à une interface web et un contrôle granulaire.
Cette formation dirigée par un instructeur (en présentiel ou à distance) s'adresse aux administrateurs et ingénieurs de niveau intermédiaire souhaitant déployer, gérer, sécuriser et optimiser les flux de données NiFi dans des environnements de production.
À l'issue de cette formation, les participants seront capables de :
- Installer, configurer et maintenir des clusters Apache NiFi.
- Concevoir et gérer des flux de données provenant de diverses sources et destinations.
- Mettre en œuvre l'automatisation des flux, le routage et la logique de transformation.
- Optimiser les performances, surveiller les opérations et résoudre les problèmes.
Format du cours
- Conférence interactive accompagnée d'une discussion sur l'architecture réelle.
- Travaux pratiques : création, déploiement et gestion des flux.
- Exercices basés sur des scénarios dans un environnement de laboratoire en direct.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter afin d'en convenir.
Apache NiFi pour les développeurs
7 HeuresLors de cette formation animée par un instructeur à Belgique, les participants apprendront les principes fondamentaux de la programmation basée sur les flux tout en développant diverses extensions de démonstration, composants et processeurs à l'aide d'Apache NiFi.
À l'issue de cette formation, les participants seront en mesure de :
- Comprendre l'architecture de NiFi et les concepts liés aux flux de données.
- Développer des extensions en utilisant NiFi et des API tierces.
- Créer leurs propres processeurs Apache NiFi sur mesure.
- Ingérer et traiter des données en temps réel provenant de formats de fichiers disparates et peu courants, ainsi que de diverses sources de données.
PySpark et Machine Learning
21 HeuresCette formation propose une introduction pratique à la création de flux de traitement de données et de Machine Learning évolutifs à l'aide de PySpark. Les participants apprendront comment Apache Spark s'insère dans les écosystèmes modernes de Big Data et comment traiter efficacement de grands volumes de données en appliquant les principes du calcul distribué.
Fondamentaux d'Apache Spark
21 HeuresCette formation en présentiel ou en ligne, animée par un formateur, s'adresse aux ingénieurs souhaitant mettre en place et déployer un système Apache Spark pour traiter de très grands volumes de données.
À l'issue de cette formation, les participants seront capables de :
- Installer et configurer Apache Spark.
- Traiter et analyser rapidement de très grands ensembles de données.
- Comprendre les différences entre Apache Spark et Hadoop MapReduce, et savoir quand utiliser l'un ou l'autre.
- Intégrer Apache Spark avec d'autres outils d'apprentissage automatique.
Administration d'Apache Spark
35 HeuresCette formation en direct, animée par un formateur, à Belgique (en ligne ou en présentiel), s'adresse aux administrateurs système de niveau débutant à intermédiaire souhaitant déployer, maintenir et optimiser des clusters Spark.
À l'issue de cette formation, les participants seront en mesure de :
- Installer et configurer Apache Spark dans divers environnements.
- Gérer les ressources des clusters et surveiller les applications Spark.
- Optimiser les performances des clusters Spark.
- Mettre en œuvre des mesures de sécurité et garantir une haute disponibilité.
- Dépanner et résoudre les problèmes courants de Spark.
Apache Spark dans le Cloud
21 HeuresLa courbe d'apprentissage d'Apache Spark est relativement raide au début, et il faut beaucoup d'efforts pour en obtenir les premiers bénéfices. Ce cours vise à franchir rapidement cette phase initiale difficile. À l'issue de ce module, les participants comprendront les fondamentaux d'Apache Spark, sauront distinguer clairement les RDD des DataFrame, maîtriseront les API Python et Scala, ainsi que le fonctionnement des exécuteurs et des tâches, entre autres. En suivant les bonnes pratiques, ce cours accorde une forte importance au déploiement dans le cloud, à Databricks et à AWS. Les élèves apprendront également à différencier AWS EMR et AWS Glue, l'un des derniers services Spark proposés par AWS.
PUBLIC CIBLE :
Ingénieur Data, DevOps, Data Scientist
Python et Spark pour le Big Data (PySpark)
21 HeuresLors de cette formation en présentiel animée par un formateur à Belgique, les participants apprendront à utiliser Python et Spark conjointement pour analyser le big data, en réalisant des exercices pratiques.
À l'issue de cette formation, les participants seront capables de :
- Utiliser Spark avec Python pour analyser le Big Data.
- Réaliser des exercices simulant des cas concrets.
- Utiliser différents outils et techniques d'analyse du big data avec PySpark.
Python, Spark et Hadoop pour le Big Data
21 HeuresCette formation en présentiel ou en ligne Belgique, encadrée par un instructeur, s'adresse aux développeurs souhaitant utiliser et intégrer Spark, Hadoop et Python pour traiter, analyser et transformer des ensembles de données volumineux et complexes.
À l'issue de cette formation, les participants seront capables de :
- Mettre en place l'environnement nécessaire pour commencer à traiter des mégadonnées avec Spark, Hadoop et Python.
- Comprendre les fonctionnalités, les composants clés et l'architecture de Spark et Hadoop.
- Apprendre à intégrer Spark, Hadoop et Python pour le traitement des mégadonnées.
- Explorer les outils de l'écosystème Spark (Spark MLlib, Spark Streaming, Kafka, Sqoop, Flume).
- Construire des systèmes de recommandation par filtrage collaboratif similaires à ceux de Netflix, YouTube, Amazon, Spotify et Google.
- Utiliser Apache Mahout pour mettre à l'échelle les algorithmes d'apprentissage automatique.
Apache Spark SQL
7 HeuresSpark SQL est le module d'Apache Spark dédié au traitement des données structurées et non structurées. Il fournit des informations sur la structure des données ainsi que sur les calculs effectués, ce qui permet d'optimiser les opérations. Spark SQL est couramment utilisé pour :
- exécuter des requêtes SQL.
- lire des données à partir d'une installation Hive existante.
Lors de cette formation en présentiel ou à distance, animée par un formateur expert, les participants apprendront à analyser différents types de jeux de données à l'aide de Spark SQL.
À l'issue de cette formation, les participants seront capables de :
- Installer et configurer Spark SQL.
- Réaliser des analyses de données avec Spark SQL.
- Interroger des jeux de données dans différents formats.
- Visualiser les données et les résultats des requêtes.
Format de la formation
- Cours interactifs et débats.
- Nombreux exercices et mises en pratique.
- Mise en œuvre concrète dans un environnement de laboratoire en temps réel.
Options de personnalisation de la formation
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter afin de convenir des détails.
Stratio : Modules Rocket et Intelligence avec PySpark
14 HeuresStratio est une plateforme centrée sur les données qui intègre le big data, l'IA et la gouvernance dans une solution unique. Ses modules Rocket et Intelligence permettent une exploration rapide des données, leur transformation et des analyses avancées dans les environnements d'entreprise.
Cette formation en direct, animée par un formateur (en ligne ou sur site), s'adresse aux professionnels des données de niveau intermédiaire souhaitant utiliser efficacement les modules Rocket et Intelligence de Stratio avec PySpark, en mettant l'accent sur les structures de bouclage, les fonctions définies par l'utilisateur et la logique des données avancée.
À l'issue de cette formation, les participants seront capables de :
- Naviguer et travailler au sein de la plateforme Stratio en utilisant les modules Rocket et Intelligence.
- Appliquer PySpark dans le cadre de l'ingestion, de la transformation et de l'analyse des données.
- Utiliser les boucles et la logique conditionnelle pour contrôler les flux de données et les tâches d'ingénierie des fonctionnalités (feature engineering).
- Créer et gérer des fonctions définies par l'utilisateur (UDF) pour des opérations de données réutilisables dans PySpark.
Format de la formation
- Conférence interactive et discussions.
- Nombreux exercices et pratiques.
- Mise en œuvre pratique dans un environnement de laboratoire en direct.
Options de personnalisation de la formation
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter afin de l'organiser.