Plan du cours

Introduction, Objectifs et Stratégie de Migration

  • Objectifs du cours, alignement des profils des participants et critères de succès
  • Approches générales de migration et considérations sur les risques
  • Configuration des espaces de travail, des dépôts et des ensembles de données de laboratoire

Jour 1 — Fondamentaux et Architecture de Migration

  • Concepts Lakehouse, aperçu de Delta Lake et architecture Databricks
  • Différences entre SMP et MPP et leurs implications pour la migration
  • Conception Medallion (Bronze→Silver→Gold) et aperçu de Unity Catalog

Jour 1 Lab — Traduction d'une Procédure Stockée

  • Migration pratique d'une procédure stockée échantillon vers un notebook
  • Mappage des tables temporaires et curseurs aux transformations de DataFrame
  • Validation et comparaison avec la sortie originale

Jour 2 — Delta Lake Avancé & Chargement Incrémentiel

  • Transactions ACID, journaux de commit, versioning et voyage dans le temps
  • Auto Loader, modèles MERGE INTO, upserts et évolution du schéma
  • OPTIMIZE, VACUUM, Z-ORDER, partitionnement et ajustement de stockage

Jour 2 Lab — Ingestion Incrémentielle & Optimisation

  • Mise en œuvre de l'ingestion Auto Loader et des workflows MERGE
  • Application d'OPTIMIZE, Z-ORDER et VACUUM ; validation des résultats
  • Mesure des améliorations de performance en lecture/écriture

Jour 3 — SQL dans Databricks, Performance & Débogage

  • Fonctionnalités analytiques SQL : fonctions de fenêtre, fonctions d'ordre supérieur, gestion JSON/tableaux
  • Lecture de l'interface utilisateur Spark, DAGs, shuffles, étapes, tâches et diagnostic des goulets d'étranglement
  • Modèles de réglage des requêtes : joins diffusés, indices, mise en cache et réduction des débordements

Jour 3 Lab — Refactoring SQL & Optimisation de la Performance

  • Refactoring d'un processus lourd SQL en Spark SQL optimisé
  • Utilisation des traces de l'interface utilisateur Spark pour identifier et corriger les problèmes de skew et shuffle
  • Benchmark avant/après et documentation des étapes de réglage

Jour 4 — PySpark Tactique : Remplacement de la Logique Procédurale

  • Modèle d'exécution Spark : pilote, exécutants, évaluation paresseuse et stratégies de partitionnement
  • Transformation des boucles et curseurs en opérations DataFrame vectorisées
  • Modularisation, UDFs/pandas UDFs, widgets et bibliothèques réutilisables

Jour 4 Lab — Refactoring de Scripts Procéduraux

  • Refactoring d'un script ETL procédural en notebooks PySpark modulaires
  • Introduction de la paramétrisation, des tests unitaires et des fonctions réutilisables
  • Revue de code et application d'une liste de contrôle des bonnes pratiques

Jour 5 — Orchestration, Pipeline Bout-à-Bout & Bonnes Pratiques

  • Workflows Databricks : conception de tâches, dépendances, déclencheurs et gestion des erreurs
  • Conception de pipelines Medallion incrémentiels avec des règles de qualité et de validation du schéma
  • Intégration avec Git (GitHub/Azure DevOps), CI et stratégies de tests pour la logique PySpark

Jour 5 Lab — Construire un Pipeline Complet Bout-à-Bout

  • Assemblage de pipeline Bronze→Silver→Gold orchestré avec Workflows
  • Mise en œuvre de la journalisation, de l'audit, des tentatives et des validations automatiques
  • Exécution du pipeline complet, validation des sorties et préparation des notes de déploiement

Industrialisation, Gouvernance et Prêt pour la Production

  • Bonnes pratiques de gouvernance Unity Catalog, traçabilité et contrôles d'accès
  • Coût, dimensionnement des clusters, évolution automatique et modèles de concurrence des tâches
  • Listes de vérification pour le déploiement, stratégies de retour en arrière et création de livres de bord

Revue Finale, Transfert des Connaissances et Prochaines Étapes

  • Présentations des participants sur le travail de migration et les leçons apprises
  • Analyse des lacunes, activités de suivi recommandées et remise des documents de formation
  • Références, chemins d'apprentissage supplémentaires et options de support

Pré requis

  • Une compréhension des concepts d'ingénierie des données
  • Une expérience avec SQL et les procédures stockées (Synapse / SQL Server)
  • Une familiarité avec les concepts d'orchestration ETL (ADF ou similaire)

Public cible

  • Gestionnaires technologiques avec une expérience en ingénierie des données
  • Ingénieurs de données passant des logiques procédurales OLAP aux modèles Lakehouse
  • Ingénieurs de plateforme responsables de l'adoption de Databricks
 35 Heures

Nombre de participants


Prix ​​par Participant

Cours à venir

Catégories Similaires