Cursusaanbod
Introductie, doelen en migratiestrategie
- Doelstellingen van de cursus, profielafstemming van de deelnemers en succescriteria
- Overzicht van migratiebenaderingen op hoog niveau en risico's
- Instellen van workspaces, repositories en laboratoriumdatasets
Dag 1 — Fundamenten en architectuur van de migratie
- Lakehouse-concepten, overzicht van Delta Lake en Databricks-architectuur
- Verschillen tussen SMP en MPP en de implicaties voor migratie
- Medallion (Bronze→Silver→Gold)-ontwerp en overzicht van Unity Catalog
Lab Dag 1 — Omzetten van een stored procedure
- Hands-on migratie van een voorbeeld stored procedure naar een notebook
- Afbeelden van temp-tabellen en cursors op DataFrame-transformaties
- Validatie en vergelijking met de originele uitvoer
Dag 2 — Geavanceerde Delta Lake & Incrementele Ingesting
- ACID-transacties, commitlogs, versiebeheer en tijdmachine
- Auto Loader, MERGE INTO-patronen, upserts en schema-evolutie
- OPTIMIZE, VACUUM, Z-ORDER, partitiering en opslagoptimalisatie
Lab Dag 2 — Incrementele ingest & optimalisatie
- Implementeren van Auto Loader ingest en MERGE-werkstroom
- Toepassen van OPTIMIZE, Z-ORDER en VACUUM; valideren van resultaten
- Meet lees-/schrijfprestatieverbeteringen
Dag 3 — SQL in Databricks, prestaties & debuggen
- Analytische SQL-functies: window functions, hogere-orde functies, JSON/array-behandeling
- Lezen van de Spark UI, DAGs, shuffles, stages, taken en bottleneck-diagnose
- Query-tuningpatronen: broadcast joins, hints, caching en spill-reductie
Lab Dag 3 — SQL-herformuleren & prestatieoptimalisatie
- Een zware SQL-proces herformuleren naar geoptimaliseerde Spark SQL
- Gebruik Spark UI-traces om skew en shuffle-problemen te identificeren en op te lossen
- Benchmark voor-/nadien en documenteer tuning-stappen
Dag 4 — Tactische PySpark: Vervangen van procedurele logica
- Spark-uitvoeringsmodel: driver, executors, lazy evaluation en partitioning-strategieën
- Lussen en cursors omzetten naar vectorized DataFrame-operaties
- Modularisatie, UDFs/pandas UDFs, widgets en herbruikbare bibliotheken
Lab Dag 4 — Herformuleren van procedurele scripts
- Een procedurele ETL-script herformuleren naar modulaire PySpark-notebooks
- Introduceer parametrisering, unit-stijl tests en herbruikbare functies
- Code review en toepassing van een best-practice checklist
Dag 5 — Orkestratie, volledige end-to-end-pipeline & best practices
- Databricks Workflows: job-ontwerp, taakafhankelijkheden, triggers en foutafhandeling
- Ontwerpen van incrementele Medallion-pipelines met kwaliteitsregels en schema-validatie
- Integratie met Git (GitHub/Azure DevOps), CI, en teststrategieën voor PySpark-logica
Lab Dag 5 — Bouwen van een volledige end-to-end-pipeline
- Assembleer de Bronze→Silver→Gold-pipeline georkestreerd met Workflows
- Implementeer logging, auditing, retries en automatische validaties
- Voer de volledige pipeline uit, valideer outputs en bereid implementatie-aantekeningen voor
Operationeel maken, governance en productie-klaarheid
- Unity Catalog-governance, lineage en toegangsbeheer best practices
- Kosten, clustergrootte, autoscaling en job-concurrentiepatronen
- Implementatiechecklijsten, rollback-strategieën en runbookcreatie
Eindbeoordeling, kennisoverdracht en volgende stappen
- Presentaties van deelnemers over hun migratie-arbeid en lesjes geleerd
- Gap-analyse, aanbevolen vervolgaandheden en overdracht van opleidingsmaterialen
- Referenties, verdere leerpaden en ondersteuningsmogelijkheden
Vereisten
- Een begrip van data engineering-concepten
- Ervaring met SQL en stored procedures (Synapse / SQL Server)
- Kennis van ETL-orkestratieconcepten (ADF of vergelijkbaar)
Doelgroep
- Technologie-managers met een achtergrond in data engineering
- Data engineers die procedurele OLAP-logica naar Lakehouse-patronen verplaatsen
- Platform ingenieurs die verantwoordelijk zijn voor de implementatie van Databricks