Neem contact met ons op

Cursusaanbod

PySpark & Machine Learning 

Module 1: Big Data & Spark-Grondslagen

  • Overzicht van het Big Data-ecosysteem en de rol van Spark in moderne dataplatforms
  • Begrip van de Spark-architectuur: driver, executors, clusterbeheerder, lazy evaluation, DAG en uitvoeringsplanning
  • Verschillen tussen RDD- en DataFrame-API's en wanneer welke aanpak het beste te gebruiken
  • Het creëren en configureren van een SparkSession en het begrijpen van de fundamenten van applicatieconfiguratie

Module 2: PySpark DataFrames

  • Data lezen van en schrijven naar enterprise-bronnen en formaten (CSV, JSON, Parquet, Delta)
  • Werken met PySpark DataFrames: transformaties, acties, kolomexpressies, filtering, joins en aggregaties
  • Implementeren van geavanceerde operaties zoals window-functies, omgaan met tijdstempels en werken met geneste data
  • Toepassen van kwaliteitscontroles voor data en het schrijven van herbruikbare, onderhoudbare PySpark-code

Module 3: Efficiënt Verwerken van Grote Datasets

  • Begrip van prestatiegrondslagen: partitie-strategieën, shuffle-gedrag, caching en persistentie
  • Toepassen van optimalisatietechnieken zoals broadcast joins en analyse van uitvoeringsplannen
  • Efficiënte verwerking van grote datasets en beste praktijken voor schaalbare data-werkstromen
  • Begrip van schema-evolutie en moderne opslagformaten die in enterprise-omgevingen worden gebruikt

Module 4: Feature Engineering op Schaal

  • Feature engineering uitvoeren met Spark MLlib: omgaan met ontbrekende waarden, coderen van categorische variabelen en feature-schaalvergroting
  • Herbruikbare voorverwerkingsstappen ontwerpen en datasets voorbereiden voor Machine Learning-pijplijnen
  • Inleiding tot feature-selectie en omgaan met onbalans in datasets

Module 5: Machine Learning met Spark MLlib

  • Begrip van de MLlib-architectuur en het Estimator/Transformer-patroon
  • Trainen van regressie- en classificatiemodellen op schaal (Linear Regression, Logistic Regression, Decision Trees, Random Forest)
  • Modellen vergelijken en resultaten interpreteren in gedistribueerde Machine Learning-werkstromen

Module 6: End-to-End ML-Pijplijnen

  • End-to-end Machine Learning-pijplijnen bouwen door voorverwerking, feature engineering en modellering te combineren
  • Toepassen van train/validatie/test-split-strategieën
  • Uitvoeren van cross-validatie en hyperparameter-tuning met behulp van grid search en random search
  • Reproduceerbare Machine Learning-experimenten structureren

Module 7: Model Evaluatie & Praktische ML-besluitvorming

  • Toepassen van geschikte evaluatiemetrieken voor regressie- en classificatieproblemen
  • Overfitting en underfitting identificeren en praktische beslissingen nemen bij modelselectie
  • Feature-belang interpreteren en modelgedrag begrijpen

Module 8: Productie & Enterprise-praktijken

  • Modellen in Spark opslaan en laden
  • Batch-inferentiewerkstromen implementeren op grote datasets
  • Begrip van de Machine Learning-lifecycle in enterprise-omgevingen
  • Inleiding tot versiebeheer, experimenttracking en basis teststrategieën

 

Praktisch Resultaat

  • Vermogen om zelfstandig met PySpark te werken
  • Vermogen om grote datasets efficiënt te verwerken
  • Vermogen om feature engineering op schaal uit te voeren
  • Vermogen om schaalbare Machine Learning-pijplijnen te bouwen

Vereisten

Deelnemers dienen over de volgende achtergrondkennis te beschikken:

Basiskennis van Python-programmering, inclusief werken met functies, datastructuren en bibliotheken
Fundamenteel begrip van datanalyseconcepten zoals datasets, transformaties en aggregaties
Basiskennis van SQL en relationele dataconcepten
Inleidende kennis van Machine Learning-concepten zoals trainingsdatasets, features en evaluatiemetrieken
Bekendheid met commandline-omgevingen en basispraktijken voor softwareontwikkeling is aanbevolen

Ervaring met Pandas, NumPy of vergelijkbare dataverwerkingsbibliotheken is nuttig, maar niet verplicht.

 21 Uren

Aantal deelnemers


Prijs per deelnemer

Getuigenissen (1)

Voorlopige Aankomende Cursussen

Gerelateerde categorieën