Cursusaanbod

Introductie, doelen en migratiestrategie

  • Doelstellingen van de cursus, profielafstemming van de deelnemers en succescriteria
  • Overzicht van migratiebenaderingen op hoog niveau en risico's
  • Instellen van workspaces, repositories en laboratoriumdatasets

Dag 1 — Fundamenten en architectuur van de migratie

  • Lakehouse-concepten, overzicht van Delta Lake en Databricks-architectuur
  • Verschillen tussen SMP en MPP en de implicaties voor migratie
  • Medallion (Bronze→Silver→Gold)-ontwerp en overzicht van Unity Catalog

Lab Dag 1 — Omzetten van een stored procedure

  • Hands-on migratie van een voorbeeld stored procedure naar een notebook
  • Afbeelden van temp-tabellen en cursors op DataFrame-transformaties
  • Validatie en vergelijking met de originele uitvoer

Dag 2 — Geavanceerde Delta Lake & Incrementele Ingesting

  • ACID-transacties, commitlogs, versiebeheer en tijdmachine
  • Auto Loader, MERGE INTO-patronen, upserts en schema-evolutie
  • OPTIMIZE, VACUUM, Z-ORDER, partitiering en opslagoptimalisatie

Lab Dag 2 — Incrementele ingest & optimalisatie

  • Implementeren van Auto Loader ingest en MERGE-werkstroom
  • Toepassen van OPTIMIZE, Z-ORDER en VACUUM; valideren van resultaten
  • Meet lees-/schrijfprestatieverbeteringen

Dag 3 — SQL in Databricks, prestaties & debuggen

  • Analytische SQL-functies: window functions, hogere-orde functies, JSON/array-behandeling
  • Lezen van de Spark UI, DAGs, shuffles, stages, taken en bottleneck-diagnose
  • Query-tuningpatronen: broadcast joins, hints, caching en spill-reductie

Lab Dag 3 — SQL-herformuleren & prestatieoptimalisatie

  • Een zware SQL-proces herformuleren naar geoptimaliseerde Spark SQL
  • Gebruik Spark UI-traces om skew en shuffle-problemen te identificeren en op te lossen
  • Benchmark voor-/nadien en documenteer tuning-stappen

Dag 4 — Tactische PySpark: Vervangen van procedurele logica

  • Spark-uitvoeringsmodel: driver, executors, lazy evaluation en partitioning-strategieën
  • Lussen en cursors omzetten naar vectorized DataFrame-operaties
  • Modularisatie, UDFs/pandas UDFs, widgets en herbruikbare bibliotheken

Lab Dag 4 — Herformuleren van procedurele scripts

  • Een procedurele ETL-script herformuleren naar modulaire PySpark-notebooks
  • Introduceer parametrisering, unit-stijl tests en herbruikbare functies
  • Code review en toepassing van een best-practice checklist

Dag 5 — Orkestratie, volledige end-to-end-pipeline & best practices

  • Databricks Workflows: job-ontwerp, taakafhankelijkheden, triggers en foutafhandeling
  • Ontwerpen van incrementele Medallion-pipelines met kwaliteitsregels en schema-validatie
  • Integratie met Git (GitHub/Azure DevOps), CI, en teststrategieën voor PySpark-logica

Lab Dag 5 — Bouwen van een volledige end-to-end-pipeline

  • Assembleer de Bronze→Silver→Gold-pipeline georkestreerd met Workflows
  • Implementeer logging, auditing, retries en automatische validaties
  • Voer de volledige pipeline uit, valideer outputs en bereid implementatie-aantekeningen voor

Operationeel maken, governance en productie-klaarheid

  • Unity Catalog-governance, lineage en toegangsbeheer best practices
  • Kosten, clustergrootte, autoscaling en job-concurrentiepatronen
  • Implementatiechecklijsten, rollback-strategieën en runbookcreatie

Eindbeoordeling, kennisoverdracht en volgende stappen

  • Presentaties van deelnemers over hun migratie-arbeid en lesjes geleerd
  • Gap-analyse, aanbevolen vervolgaandheden en overdracht van opleidingsmaterialen
  • Referenties, verdere leerpaden en ondersteuningsmogelijkheden

Vereisten

  • Een begrip van data engineering-concepten
  • Ervaring met SQL en stored procedures (Synapse / SQL Server)
  • Kennis van ETL-orkestratieconcepten (ADF of vergelijkbaar)

Doelgroep

  • Technologie-managers met een achtergrond in data engineering
  • Data engineers die procedurele OLAP-logica naar Lakehouse-patronen verplaatsen
  • Platform ingenieurs die verantwoordelijk zijn voor de implementatie van Databricks
 35 Uren

Aantal deelnemers


Prijs per deelnemer

Voorlopige Aankomende Cursussen

Gerelateerde categorieën