Plan du cours
Introduction, Objectifs et Stratégie de Migration
- Objectifs du cours, alignement des profils des participants et critères de succès
- Approches générales de migration et considérations sur les risques
- Configuration des espaces de travail, des dépôts et des ensembles de données de laboratoire
Jour 1 — Fondamentaux et Architecture de Migration
- Concepts Lakehouse, aperçu de Delta Lake et architecture Databricks
- Différences entre SMP et MPP et leurs implications pour la migration
- Conception Medallion (Bronze→Silver→Gold) et aperçu de Unity Catalog
Jour 1 Lab — Traduction d'une Procédure Stockée
- Migration pratique d'une procédure stockée échantillon vers un notebook
- Mappage des tables temporaires et curseurs aux transformations de DataFrame
- Validation et comparaison avec la sortie originale
Jour 2 — Delta Lake Avancé & Chargement Incrémentiel
- Transactions ACID, journaux de commit, versioning et voyage dans le temps
- Auto Loader, modèles MERGE INTO, upserts et évolution du schéma
- OPTIMIZE, VACUUM, Z-ORDER, partitionnement et ajustement de stockage
Jour 2 Lab — Ingestion Incrémentielle & Optimisation
- Mise en œuvre de l'ingestion Auto Loader et des workflows MERGE
- Application d'OPTIMIZE, Z-ORDER et VACUUM ; validation des résultats
- Mesure des améliorations de performance en lecture/écriture
Jour 3 — SQL dans Databricks, Performance & Débogage
- Fonctionnalités analytiques SQL : fonctions de fenêtre, fonctions d'ordre supérieur, gestion JSON/tableaux
- Lecture de l'interface utilisateur Spark, DAGs, shuffles, étapes, tâches et diagnostic des goulets d'étranglement
- Modèles de réglage des requêtes : joins diffusés, indices, mise en cache et réduction des débordements
Jour 3 Lab — Refactoring SQL & Optimisation de la Performance
- Refactoring d'un processus lourd SQL en Spark SQL optimisé
- Utilisation des traces de l'interface utilisateur Spark pour identifier et corriger les problèmes de skew et shuffle
- Benchmark avant/après et documentation des étapes de réglage
Jour 4 — PySpark Tactique : Remplacement de la Logique Procédurale
- Modèle d'exécution Spark : pilote, exécutants, évaluation paresseuse et stratégies de partitionnement
- Transformation des boucles et curseurs en opérations DataFrame vectorisées
- Modularisation, UDFs/pandas UDFs, widgets et bibliothèques réutilisables
Jour 4 Lab — Refactoring de Scripts Procéduraux
- Refactoring d'un script ETL procédural en notebooks PySpark modulaires
- Introduction de la paramétrisation, des tests unitaires et des fonctions réutilisables
- Revue de code et application d'une liste de contrôle des bonnes pratiques
Jour 5 — Orchestration, Pipeline Bout-à-Bout & Bonnes Pratiques
- Workflows Databricks : conception de tâches, dépendances, déclencheurs et gestion des erreurs
- Conception de pipelines Medallion incrémentiels avec des règles de qualité et de validation du schéma
- Intégration avec Git (GitHub/Azure DevOps), CI et stratégies de tests pour la logique PySpark
Jour 5 Lab — Construire un Pipeline Complet Bout-à-Bout
- Assemblage de pipeline Bronze→Silver→Gold orchestré avec Workflows
- Mise en œuvre de la journalisation, de l'audit, des tentatives et des validations automatiques
- Exécution du pipeline complet, validation des sorties et préparation des notes de déploiement
Industrialisation, Gouvernance et Prêt pour la Production
- Bonnes pratiques de gouvernance Unity Catalog, traçabilité et contrôles d'accès
- Coût, dimensionnement des clusters, évolution automatique et modèles de concurrence des tâches
- Listes de vérification pour le déploiement, stratégies de retour en arrière et création de livres de bord
Revue Finale, Transfert des Connaissances et Prochaines Étapes
- Présentations des participants sur le travail de migration et les leçons apprises
- Analyse des lacunes, activités de suivi recommandées et remise des documents de formation
- Références, chemins d'apprentissage supplémentaires et options de support
Pré requis
- Une compréhension des concepts d'ingénierie des données
- Une expérience avec SQL et les procédures stockées (Synapse / SQL Server)
- Une familiarité avec les concepts d'orchestration ETL (ADF ou similaire)
Public cible
- Gestionnaires technologiques avec une expérience en ingénierie des données
- Ingénieurs de données passant des logiques procédurales OLAP aux modèles Lakehouse
- Ingénieurs de plateforme responsables de l'adoption de Databricks