Plan du cours
Introduction, Objectifs et Stratégie de Migration
- Objectifs du cours, alignement des profils des participants et critères de succès
- Approches de migration de haut niveau et considérations de risque
- Configuration des espaces de travail, des dépôts et des ensembles de données de laboratoire
Jour 1 — Fondamentaux et Architecture de la Migration
- Concepts Lakehouse, aperçu de Delta Lake et architecture Databricks
- Différences entre SMP et MPP et implications pour la migration
- Conception Medallion (Bronze → Silver → Gold) et aperçu de Unity Catalog
Lab Jour 1 — Traduction d'une Procédure Stockée
- Migration pratique d'une procédure stockée d'exemple vers un notebook
- Mappage des tables temporaires et curseurs aux transformations de DataFrame
- Validation et comparaison avec la sortie originale
Jour 2 — Delta Lake Avancé & Chargement Incremental
- Transactions ACID, journaux de commit, versionnement et voyage dans le temps
- Auto Loader, motifs MERGE INTO, upserts et évolution du schéma
- OPTIMIZE, VACUUM, Z-ORDER, partitionnement et optimisation de stockage
Lab Jour 2 — Ingestion Incrementale & Optimisation
- Mise en œuvre de l'ingestion Auto Loader et des workflows MERGE
- Application d'OPTIMIZE, Z-ORDER et VACUUM ; validation des résultats
- Mesure des améliorations de performance en lecture/écriture
Jour 3 — SQL dans Databricks, Performance & Débogage
- Fonctionnalités analytiques SQL : fonctions de fenêtrage, fonctions d'ordre supérieur, gestion JSON/array
- Lecture de l'interface utilisateur Spark, DAGs, shuffles, étapes, tâches et diagnostic des goulets d'étranglement
- Modèles de réglage des requêtes : jointures diffusées, indices, mise en cache et réduction de débordement
Lab Jour 3 — Refactoring SQL & Optimisation de Performance
- Refactorisation d'un processus SQL lourd en Spark SQL optimisé
- Utilisation des traces de l'interface utilisateur Spark pour identifier et corriger les problèmes de déséquilibre et de shuffle
- Benchmark avant/après et documentation des étapes de réglage
Jour 4 — PySpark Tactique : Remplacement de la Logique Procédurale
- Modèle d'exécution Spark : pilote, exécuteurs, évaluation paresseuse et stratégies de partitionnement
- Transformation des boucles et curseurs en opérations de DataFrame vectorisées
- Modularisation, UDFs/pandas UDFs, widgets et bibliothèques réutilisables
Lab Jour 4 — Refactoring de Scripts Procéduraux
- Refactorisation d'un script ETL procédural en notebooks PySpark modulaires
- Introduction des paramétrisations, tests de style unitaire et fonctions réutilisables
- Revue de code et application d'une liste de contrôle des meilleures pratiques
Jour 5 — Orchestration, Pipeline Bout-en-Bout & Meilleures Pratiques
- Databricks Workflows : conception des tâches, dépendances de tâches, déclencheurs et gestion des erreurs
- Conception de pipelines Medallion incrémentiels avec des règles de qualité et une validation de schéma
- Intégration avec Git (GitHub/Azure DevOps), CI et stratégies de test pour la logique PySpark
Lab Jour 5 — Construction d'un Pipeline Complet Bout-en-Bout
- Assemblage du pipeline Bronze → Silver → Gold orchestré avec Workflows
- Mise en œuvre de la journalisation, de l'audit, des tentatives et des validations automatisées
- Exécution du pipeline complet, validation des sorties et préparation des notes de déploiement
Opérationnalisation, Gouvernance et Prêt pour la Production
- Meilleures pratiques de gouvernance Unity Catalog, traçabilité et contrôles d'accès
- Coûts, dimensionnement des clusters, autoscaling et motifs de concurrence des tâches
- Listes de contrôle de déploiement, stratégies de retour en arrière et création d'un manuel de runbook
Revue Finale, Transfert des Connaissances et Étapes Suivantes
- Présentations des participants sur le travail de migration et les leçons apprises
- Analyse des lacunes, activités de suivi recommandées et remise des documents de formation
- Références, chemins d'apprentissage supplémentaires et options de support
Pré requis
- Une compréhension des concepts d'ingénierie des données
- Une expérience avec SQL et les procédures stockées (Synapse / SQL Server)
- Une familiarité avec les concepts d'orchestration ETL (ADF ou similaire)
Public
- Gestionnaires de technologie avec une expérience en ingénierie des données
- Ingénieurs de données en transition de logiques procédurales OLAP vers des modèles Lakehouse
- Ingénieurs de plateforme responsables de l'adoption de Databricks