Plan du cours
Introduction, objectifs et stratégie de migration
- Objectifs du cours, alignement du profil des participants et critères de succès
- Approches de migration de haut niveau et considérations relatives aux risques
- Configuration des espaces de travail, des dépôts et des jeux de données de laboratoire
Jour 1 — Fondamentaux de la migration et architecture
- Concepts Lakehouse, aperçu de Delta Lake et architecture Databricks
- Différences entre SMP et MPP et implications pour la migration
- Conception Medallion (Bronze→Silver→Gold) et aperçu d'Unity Catalog
Laboratoire du Jour 1 — Traduction d'une procédure stockée
- Migration pratique d'une procédure stockée exemple vers un notebook
- Mappage des tables temporaires et des curseurs en transformations DataFrame
- Validation et comparaison avec la sortie d'origine
Jour 2 — Delta Lake avancé et chargement incrémental
- Transactions ACID, journaux de validation, versionning et time travel
- Auto Loader, patterns MERGE INTO, upserts et évolution du schéma
- OPTIMIZE, VACUUM, Z-ORDER, partitionnement et ajustement du stockage
Laboratoire du Jour 2 — Ingestion incrémentale et optimisation
- Mise en œuvre de l'ingestion Auto Loader et des workflows MERGE
- Application de OPTIMIZE, Z-ORDER et VACUUM ; validation des résultats
- Mesure des améliorations de performance en lecture/écriture
Jour 3 — SQL dans Databricks, performance et débogage
- Fonctionnalités SQL analytiques : fonctions de fenêtre, fonctions d'ordre supérieur, gestion JSON/tableaux
- Lecture de l'interface utilisateur Spark, DAGs, shuffles, étapes, tâches et diagnostic des goulets d'étranglement
- Patterns de réglage de requête : jointures broadcast, hints, mise en cache et réduction du spill
Laboratoire du Jour 3 — Refactoring SQL et réglage des performances
- Refactorer un processus SQL lourd en Spark SQL optimisé
- Utilisation des traces de l'interface utilisateur Spark pour identifier et corriger les problèmes de skew et de shuffle
- Benchmarks avant/après et documentation des étapes de réglage
Jour 4 — PySpark tactique : remplacement de la logique procédurale
- Modèle d'exécution Spark : driver, executors, évaluation paresseuse et stratégies de partitionnement
- Transformation des boucles et curseurs en opérations DataFrame vectorisées
- Modularisation, UDFs/pandas UDFs, widgets et bibliothèques réutilisables
Laboratoire du Jour 4 — Refactoring des scripts procéduraux
- Refactorer un script ETL procédural en notebooks PySpark modulaires
- Introduction de la paramétrisation, des tests de style unitaire et des fonctions réutilisables
- Revue de code et application de la liste de contrôle des meilleures pratiques
Jour 5 — Orchestration, pipeline de bout en bout et meilleures pratiques
- Databricks Workflows : conception de jobs, dépendances des tâches, triggers et gestion des erreurs
- Conception de pipelines Medallion incrémentaux avec règles de qualité et validation du schéma
- Intégration avec Git (GitHub/Azure DevOps), CI et stratégies de test pour la logique PySpark
Laboratoire du Jour 5 — Construction d'un pipeline complet de bout en bout
- Assemblage du pipeline Bronze→Silver→Gold orchestré avec Workflows
- Mise en œuvre de la journalisation, de l'audit, des retry et des validations automatiques
- Exécution du pipeline complet, validation des sorties et préparation des notes de déploiement
Opérationnalisation, gouvernance et préparation à la production
- Gouvernance Unity Catalog, lignée et meilleures pratiques de contrôle d'accès
- Coût, dimensionnement des clusters, autoscaling et patterns de concurrence des jobs
- Listes de contrôle de déploiement, stratégies de rollback et création de runbooks
Revue finale, transfert de connaissances et prochaines étapes
- Présentations des participants sur le travail de migration et les enseignements tirés
- Analyse des écarts, activités de suivi recommandées et remise du matériel de formation
- Références, parcours d'apprentissage supplémentaires et options de support
Pré requis
- Une compréhension des concepts d'ingénierie des données
- Une expérience avec SQL et les procédures stockées (Synapse / SQL Server)
- Une familiarité avec les concepts d'orchestration ETL (ADF ou similaire)
Public cible
- Gestionnaires techniques avec un background en ingénierie des données
- Ingénieurs des données qui transitionnent une logique OLAP procédurale vers des patterns Lakehouse
- Ingénieurs plateforme responsables de l'adoption de Databricks