Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.        
        
        
            Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.        
    Plan du cours
Semaine 1 — Introduction à l'Ingénierie des Données
- Fondements de l'ingénierie des données et piles de données modernes
 - Modèles d'ingestion de données et sources
 - Concepts de traitement par lots vs en temps réel et cas d'utilisation
 - Laboratoire pratique : ingestion de données d'échantillon dans le stockage cloud
 
Semaine 2 — Badge Fondation Databricks Lakehouse
- Fondements de la plateforme Databricks et navigation dans l'espace de travail
 - Concepts Delta Lake : ACID, voyage dans le temps et évolution du schéma
 - Sécurité de l'espace de travail, contrôles d'accès et bases de Unity Catalog
 - Laboratoire pratique : création et gestion de tables Delta
 
Semaine 3 — SQL Avancé sur Databricks
- Constructions SQL avancées et fonctions de fenêtre à grande échelle
 - Optimisation des requêtes, plans d'exécution et modèles conscients du coût
 - Vues matérialisées, mise en cache et réglage des performances
 - Laboratoire pratique : optimisation de requêtes analytiques sur de grands ensembles de données
 
Semaine 4 — Préparation pour le Databricks Certified Developer for Apache Spark
- Architecture Spark, RDDs, DataFrames et Datasets approfondis
 - Transformations et actions clés de Spark ; considérations sur les performances
 - Bases du streaming Spark et modèles de streaming structuré
 - Exercices de pratique d'examens et problèmes de test pratiques
 
Semaine 5 — Introduction à la Modélisation des Données
- Concepts : modélisation dimensionnelle, conception étoile/entité-association et normalisation
 - Modélisation Lakehouse vs approches traditionnelles de data warehouse
 - Modèles de conception pour des ensembles de données prêts à l'analyse
 - Laboratoire pratique : construction de tables et vues prêtes à la consommation
 
Semaine 6 — Introduction aux Outils d'Importation et à l'Automatisation de l'Ingestion de Données
- Connecteurs et outils d'ingestion pour Databricks (AWS Glue, Data Factory, Kafka)
 - Modèles d'ingestion en temps réel et designs de micro-lots
 - Vérification des données, contrôles de qualité et enforcement de schéma
 - Laboratoire pratique : construction de pipelines d'ingestion résilients
 
Semaine 7 — Introduction au Git Flow et CI/CD pour l'Ingénierie des Données
- Stratégies de branches Git Flow et organisation du dépôt
 - Pipelines CI/CD pour les notebooks, tâches et infrastructure comme code
 - Tests, mise en forme et automatisation du déploiement pour le code de données
 - Laboratoire pratique : implémentation d'un workflow basé sur Git et déploiement automatique de tâches
 
Semaine 8 — Préparation au Databricks Certified Data Engineer Associate & Modèles d'Ingénierie des Données
- Revue des sujets de certification et exercices pratiques
 - Modèles architecturaux : bronze/argent/or, CDC, dimensions évoluant lentement
 - Modèles opérationnels : surveillance, alertes et traçabilité
 - Laboratoire pratique : pipeline de bout en bout appliquant des modèles d'ingénierie
 
Semaine 9 — Introduction à Airflow et Astronomer ; Scripting
- Concepts Airflow : DAGs, tâches, opérateurs et planification
 - Aperçu de la plateforme Astronomer et meilleures pratiques d'orchestration
 - Scripting pour l'automatisation : modèles de scripting Python pour les tâches de données
 - Laboratoire pratique : orchestration de tâches Databricks avec des DAGs Airflow
 
Semaine 10 — Visualisation des Données, Tableau et Projet Final Personnalisé
- Connexion de Tableau à Databricks et meilleures pratiques pour les couches BI
 - Principes de conception de tableaux de bord et visualisations performantes
 - Projet final : portée, mise en œuvre et présentation d'un projet final personnalisé
 - Présentations finales, évaluation par les pairs et retours de l'instructeur
 
Résumé et Étapes Suivantes
Pré requis
- Une compréhension des concepts de base de SQL et des données
 - Une expérience en programmation avec Python ou Scala
 - Une familiarité avec les services cloud et les environnements virtuels
 
PUBLIC CIBLÉ
- Data engineers débutants et confirmés
 - Développeurs ETL/BI et ingénieurs en analyse de données
 - Équipes de plateformes de données et DevOps supportant les pipelines
 
             350 Heures