Cursusaanbod
PySpark & Machine Learning
Module 1: Big Data & Spark-Grondslagen
- Overzicht van het Big Data-ecosysteem en de rol van Spark in moderne dataplatforms
- Begrip van de Spark-architectuur: driver, executors, clusterbeheerder, lazy evaluation, DAG en uitvoeringsplanning
- Verschillen tussen RDD- en DataFrame-API's en wanneer welke aanpak het beste te gebruiken
- Het creëren en configureren van een SparkSession en het begrijpen van de fundamenten van applicatieconfiguratie
Module 2: PySpark DataFrames
- Data lezen van en schrijven naar enterprise-bronnen en formaten (CSV, JSON, Parquet, Delta)
- Werken met PySpark DataFrames: transformaties, acties, kolomexpressies, filtering, joins en aggregaties
- Implementeren van geavanceerde operaties zoals window-functies, omgaan met tijdstempels en werken met geneste data
- Toepassen van kwaliteitscontroles voor data en het schrijven van herbruikbare, onderhoudbare PySpark-code
Module 3: Efficiënt Verwerken van Grote Datasets
- Begrip van prestatiegrondslagen: partitie-strategieën, shuffle-gedrag, caching en persistentie
- Toepassen van optimalisatietechnieken zoals broadcast joins en analyse van uitvoeringsplannen
- Efficiënte verwerking van grote datasets en beste praktijken voor schaalbare data-werkstromen
- Begrip van schema-evolutie en moderne opslagformaten die in enterprise-omgevingen worden gebruikt
Module 4: Feature Engineering op Schaal
- Feature engineering uitvoeren met Spark MLlib: omgaan met ontbrekende waarden, coderen van categorische variabelen en feature-schaalvergroting
- Herbruikbare voorverwerkingsstappen ontwerpen en datasets voorbereiden voor Machine Learning-pijplijnen
- Inleiding tot feature-selectie en omgaan met onbalans in datasets
Module 5: Machine Learning met Spark MLlib
- Begrip van de MLlib-architectuur en het Estimator/Transformer-patroon
- Trainen van regressie- en classificatiemodellen op schaal (Linear Regression, Logistic Regression, Decision Trees, Random Forest)
- Modellen vergelijken en resultaten interpreteren in gedistribueerde Machine Learning-werkstromen
Module 6: End-to-End ML-Pijplijnen
- End-to-end Machine Learning-pijplijnen bouwen door voorverwerking, feature engineering en modellering te combineren
- Toepassen van train/validatie/test-split-strategieën
- Uitvoeren van cross-validatie en hyperparameter-tuning met behulp van grid search en random search
- Reproduceerbare Machine Learning-experimenten structureren
Module 7: Model Evaluatie & Praktische ML-besluitvorming
- Toepassen van geschikte evaluatiemetrieken voor regressie- en classificatieproblemen
- Overfitting en underfitting identificeren en praktische beslissingen nemen bij modelselectie
- Feature-belang interpreteren en modelgedrag begrijpen
Module 8: Productie & Enterprise-praktijken
- Modellen in Spark opslaan en laden
- Batch-inferentiewerkstromen implementeren op grote datasets
- Begrip van de Machine Learning-lifecycle in enterprise-omgevingen
- Inleiding tot versiebeheer, experimenttracking en basis teststrategieën
Praktisch Resultaat
- Vermogen om zelfstandig met PySpark te werken
- Vermogen om grote datasets efficiënt te verwerken
- Vermogen om feature engineering op schaal uit te voeren
- Vermogen om schaalbare Machine Learning-pijplijnen te bouwen
Vereisten
Deelnemers dienen over de volgende achtergrondkennis te beschikken:
Basiskennis van Python-programmering, inclusief werken met functies, datastructuren en bibliotheken
Fundamenteel begrip van datanalyseconcepten zoals datasets, transformaties en aggregaties
Basiskennis van SQL en relationele dataconcepten
Inleidende kennis van Machine Learning-concepten zoals trainingsdatasets, features en evaluatiemetrieken
Bekendheid met commandline-omgevingen en basispraktijken voor softwareontwikkeling is aanbevolen
Ervaring met Pandas, NumPy of vergelijkbare dataverwerkingsbibliotheken is nuttig, maar niet verplicht.
Getuigenissen (1)
Ik vond het fijn dat het praktisch was. Ik hield ervan om de theoretische kennis toe te passen met praktijkvoorbeelden.
Aurelia-Adriana - Allianz Services Romania
Cursus - Python and Spark for Big Data (PySpark)
Automatisch vertaald