Cursusaanbod

  1. Inleiding tot Scala

    • Een snelle introductie tot Scala
    • Labo's: Kennismaking met Scala
  2. Basisprincipes van Spark

    • Achtergrond en geschiedenis
    • Spark en Hadoop
    • Spark-concepten en architectuur
    • Spark-ecosysteem (core, Spark SQL, MLlib, streaming)
    • Labo's: Installatie en uitvoeren van Spark
  3. Eerste blik op Spark

    • Spark uitvoeren in lokale modus
    • Spark web-UI
    • Spark-shell
    • Analyse van dataset - deel 1
    • Inspectie van RDD's
    • Labo's: Verkennen van Spark-shell
  4. RDD's (Resilient Distributed Datasets)

    • Concepten van RDD's
    • Partities
    • Operaties en transformaties op RDD's
    • RDD-typen
    • Sleutel-waardepaar RDD's
    • MapReduce op RDD's
    • Caching en persistatie
    • Labo's: Creëren & inspecteren van RDD's; Cachen van RDD's
  5. Spark API-programmering

    • Inleiding tot Spark API / RDD API
    • Aanbieden van het eerste programma aan Spark
    • Debuggeren / loggeren
    • Configuratie-eigenschappen
    • Labo's: Programmeren in Spark API, Aanbieden van taken
  6. Spark SQL

    • SQL-ondersteuning in Spark
    • Dataframes
    • Tabeldefinities en importeren van datasets
    • Dataframes queryën met SQL
    • Opslagformaten: JSON / Parquet
    • Labo's: Creëren en queryën van dataframes; Evaluatie van gegevensformaten
  7. MLlib (Machine Learning Library)

    • Inleiding tot MLlib
    • MLlib-algoritmen
    • Labo's: Schrijven van MLib-toepassingen
  8. GraphX (Grafiekverwerkingsbibliotheek)

    • Overzicht van GraphX-bibliotheek
    • API's van GraphX
    • Labo's: Verwerken van grafische gegevens met Spark
  9. Spark Streaming (Streaming-gegevensverwerking)

    • Overzicht van streaming
    • Evaluatie van streaming-platforms
    • Streaming-operaties
    • Glijdende vensteroperaties
    • Labo's: Schrijven van Spark-streamingtoepassingen
  10. Spark en Hadoop

    • Inleiding tot Hadoop (HDFS / YARN)
    • Hadoop + Spark-architectuur
    • Uitvoeren van Spark op Hadoop YARN
    • Bewerking van HDFS-bestanden met Spark
  11. Spark-prestaties en afstelling

    • Broadcast-variabelen
    • Accumulators
    • Geheerbeheer & caching
  12. Spark-operaties

    • Implementeren van Spark in productieomgevingen
    • Voorbeeldimplementatiemodellen
    • Configuraties
    • Monitoring
    • Foutopsporing

Vereisten

VORENDE REQUIREMENTEN

vertrouwdheid met Java / Scala / Python (onze labo's in Scala en Python)
basisbegrip van de Linux-ontwikkelingsomgeving (command line navigatie / bestanden bewerken met VI of nano)

 21 Uren

Aantal deelnemers


Prijs Per Deelnemer

Getuigenissen (6)

Voorlopige Aankomende Cursussen

Gerelateerde categorieën