Cursusaanbod
Introductie, Doelen en Migratiestrategie
- Cursusdoelen, deelnemersprofielovereenstemming en success criteria
- Hoogleriveau migratiebenaderingen en risico-overwegingen
- Werkruimtes, repositories en labdatasets instellen
Dag 1 — Migratie Fundamenten en Architectuur
- Lakehouse-concepten, Delta Lake-overzicht en Databricks-architectuur
- SMP vs. MPP-verschillen en implicaties voor migratie
- Medallion (Bronze→Silver→Gold) design en Unity Catalog-overzicht
Dag 1 Lab — Opgeslagen Procedure omzetten
- Handson migratie van een voorbeeldopgeslagen procedure naar een notebook
- Temp-tabels en cursors afbeelden op DataFrame-transformaties
- Validatie en vergelijking met originele uitvoer
Dag 2 — Geavanceerde Delta Lake & Incrementele Ingestie
- ACID-transacties, commitlogs, versiebeheer en tijdmachine
- Auto Loader, MERGE INTO-patronen, upserts en schema-evolutie
- OPTIMIZE, VACUUM, Z-ORDER, partitionering en opslagtuning
Dag 2 Lab — Incrementele Ingestie & Optimalisatie
- Implementeren van Auto Loader-ingestie en MERGE-werkstromen
- OPTIMIZE, Z-ORDER en VACUUM toepassen; resultaten valideren
- Lees/schrijfprestatieverhogingen meten
Dag 3 — SQL in Databricks, Prestatie & Debugging
- Analytische SQL-functies: window functions, hogere-ordefuncties, JSON/array-hantering
- De Spark UI lezen, DAGs, schuiven, fasen, taken en bottleneck-diagnose
- Query-tuningpatronen: broadcast joins, hints, caching en spill-reductie
Dag 3 Lab — SQL Refactoring & Prestatie Optimalisatie
- Een zware SQL-proces omzetten naar geoptimaliseerde Spark SQL
- Spark UI-traces gebruiken om scheef en schuifproblemen te identificeren en op te lossen
- Benchmark voor en na en documentatie van tuningstappen
Dag 4 — Tactische PySpark: Procedurele Logica vervangen
- Spark-uitvoeringsmodel: driver, executors, lazy evaluation en partitioneringstrategieën
- Lussen en cursors omzetten naar gevectoriseerde DataFrame-bewerkingen
- Modularisatie, UDFs/pandas UDFs, widgets en herbruikbare bibliotheken
Dag 4 Lab — Procedurele Scripts omzetten
- Een procedurele ETL-script omzetten naar modulaire PySpark-notebooks
- Parametrisering, unit-stijl tests en herbruikbare functies introduceren
- Codebeoordeling en toepassing van een best-practicelijst
Dag 5 — Orchestration, End-to-End Pipeline & Best Practices
- Databricks Workflows: jobontwerp, taakafhankelijkheden, triggers en foutafhandeling
- Incrementele Medallion-pipelines ontwerpen met kwaliteitsregels en schema-validatie
- Integratie met Git (GitHub/Azure DevOps), CI en teststrategieën voor PySpark-logica
Dag 5 Lab — Een volledige End-to-End Pipeline bouwen
- Assembleer een Bronze→Silver→Gold-pipeline georkestreerd met Workflows
- Logging, audit, retries en automatische validaties implementeren
- Volledige pipeline uitvoeren, outputs valideren en implementatieaantekeningen voorbereiden
Operationeel maken, Governance en Productiereedheid
- Unity Catalog-governance, linage en toegangscontrole best practices
- Kosten, clustergrootte, automatisch schalen en taakconcurrentiepatronen
- Implementatiechecklijsten, rollbackstrategieën en runbookcreatie
Finale Beoordeling, Kennisoverdracht en Volgende Stappen
- Deelnemerpresentaties van migratiework en geleerde lessen
- Kapanalyse, aanbevolen vervolgagebieden en overhandiging van trainingmateriaal
- Referenties, verdere leerpaden en ondersteuningsopties
Vereisten
- Een begrip van data-engineeringconcepten
- Ervaring met SQL en opgeslagen procedures (Synapse / SQL Server)
- Vertrouwdheid met ETL-orchestration-concepten (ADF of vergelijkbaar)
Doelgroep
- Technologiebeheerders met een achtergrond in data engineering
- Data-engineers die procedurele OLAP-logica migreren naar Lakehouse-patronen
- Platform-engineers verantwoordelijk voor Databricks-adoptie