Cursusaanbod

Introductie, Doelen en Migratiestrategie

  • Cursusdoelen, deelnemersprofielovereenstemming en success criteria
  • Hoogleriveau migratiebenaderingen en risico-overwegingen
  • Werkruimtes, repositories en labdatasets instellen

Dag 1 — Migratie Fundamenten en Architectuur

  • Lakehouse-concepten, Delta Lake-overzicht en Databricks-architectuur
  • SMP vs. MPP-verschillen en implicaties voor migratie
  • Medallion (Bronze→Silver→Gold) design en Unity Catalog-overzicht

Dag 1 Lab — Opgeslagen Procedure omzetten

  • Handson migratie van een voorbeeldopgeslagen procedure naar een notebook
  • Temp-tabels en cursors afbeelden op DataFrame-transformaties
  • Validatie en vergelijking met originele uitvoer

Dag 2 — Geavanceerde Delta Lake & Incrementele Ingestie

  • ACID-transacties, commitlogs, versiebeheer en tijdmachine
  • Auto Loader, MERGE INTO-patronen, upserts en schema-evolutie
  • OPTIMIZE, VACUUM, Z-ORDER, partitionering en opslagtuning

Dag 2 Lab — Incrementele Ingestie & Optimalisatie

  • Implementeren van Auto Loader-ingestie en MERGE-werkstromen
  • OPTIMIZE, Z-ORDER en VACUUM toepassen; resultaten valideren
  • Lees/schrijfprestatieverhogingen meten

Dag 3 — SQL in Databricks, Prestatie & Debugging

  • Analytische SQL-functies: window functions, hogere-ordefuncties, JSON/array-hantering
  • De Spark UI lezen, DAGs, schuiven, fasen, taken en bottleneck-diagnose
  • Query-tuningpatronen: broadcast joins, hints, caching en spill-reductie

Dag 3 Lab — SQL Refactoring & Prestatie Optimalisatie

  • Een zware SQL-proces omzetten naar geoptimaliseerde Spark SQL
  • Spark UI-traces gebruiken om scheef en schuifproblemen te identificeren en op te lossen
  • Benchmark voor en na en documentatie van tuningstappen

Dag 4 — Tactische PySpark: Procedurele Logica vervangen

  • Spark-uitvoeringsmodel: driver, executors, lazy evaluation en partitioneringstrategieën
  • Lussen en cursors omzetten naar gevectoriseerde DataFrame-bewerkingen
  • Modularisatie, UDFs/pandas UDFs, widgets en herbruikbare bibliotheken

Dag 4 Lab — Procedurele Scripts omzetten

  • Een procedurele ETL-script omzetten naar modulaire PySpark-notebooks
  • Parametrisering, unit-stijl tests en herbruikbare functies introduceren
  • Codebeoordeling en toepassing van een best-practicelijst

Dag 5 — Orchestration, End-to-End Pipeline & Best Practices

  • Databricks Workflows: jobontwerp, taakafhankelijkheden, triggers en foutafhandeling
  • Incrementele Medallion-pipelines ontwerpen met kwaliteitsregels en schema-validatie
  • Integratie met Git (GitHub/Azure DevOps), CI en teststrategieën voor PySpark-logica

Dag 5 Lab — Een volledige End-to-End Pipeline bouwen

  • Assembleer een Bronze→Silver→Gold-pipeline georkestreerd met Workflows
  • Logging, audit, retries en automatische validaties implementeren
  • Volledige pipeline uitvoeren, outputs valideren en implementatieaantekeningen voorbereiden

Operationeel maken, Governance en Productiereedheid

  • Unity Catalog-governance, linage en toegangscontrole best practices
  • Kosten, clustergrootte, automatisch schalen en taakconcurrentiepatronen
  • Implementatiechecklijsten, rollbackstrategieën en runbookcreatie

Finale Beoordeling, Kennisoverdracht en Volgende Stappen

  • Deelnemerpresentaties van migratiework en geleerde lessen
  • Kapanalyse, aanbevolen vervolgagebieden en overhandiging van trainingmateriaal
  • Referenties, verdere leerpaden en ondersteuningsopties

Vereisten

  • Een begrip van data-engineeringconcepten
  • Ervaring met SQL en opgeslagen procedures (Synapse / SQL Server)
  • Vertrouwdheid met ETL-orchestration-concepten (ADF of vergelijkbaar)

Doelgroep

  • Technologiebeheerders met een achtergrond in data engineering
  • Data-engineers die procedurele OLAP-logica migreren naar Lakehouse-patronen
  • Platform-engineers verantwoordelijk voor Databricks-adoptie
 35 Uren

Aantal deelnemers


Prijs Per Deelnemer

Voorlopige Aankomende Cursussen

Gerelateerde categorieën