Course Outline

 

Introductie:

  • Apache Spark in Hadoop Ecosysteem
  • Korte intro voor python, scala

Basis (theorie):

  • Architectuur
  • RDD
  • Transformatie en acties
  • Fase, taak, afhankelijkheden

Met behulp van Databricks omgeving begrijp je de basis (hands-on workshop):

  • Oefeningen met behulp van RDD API
  • Basisfuncties voor actie en transformatie
  • PairRDD
  • Verbinden
  • Strategieën voor caching
  • Oefeningen met behulp van de DataFrame-API
  • VonkSQL
  • DataFrame: selecteren, filteren, groeperen, sorteren
  • UDF (door de gebruiker gedefinieerde functie)
  • Kijken naar DataSet API
  • Streaming

Met behulp van AWS-omgeving inzicht in de implementatie (hands-on workshop):

  • Basisprincipes van AWS-lijm
  • Begrijp de verschillen tussen AWS EMR en AWS Glue
  • Voorbeeldtaken in beide omgevingen
  • Begrijp de voor- en nadelen

Extra:

  • Inleiding tot Apache Airflow orkestratie

Requirements

Programmeervaardigheden (bij voorkeur Python, Scala)

SQL basis

 21 Hours

Number of participants



Price per participant

Getuigenissen (2)

Related Courses

Python and Spark for Big Data (PySpark)

21 Hours

Introduction to Graph Computing

28 Hours

Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP

21 Hours

Apache Spark MLlib

35 Hours

Big Data Analytics in Health

21 Hours

Hadoop and Spark for Administrators

35 Hours

Hortonworks Data Platform (HDP) for Administrators

21 Hours

A Practical Introduction to Stream Processing

21 Hours

Magellan: Geospatial Analytics on Spark

14 Hours

Apache Spark for .NET Developers

21 Hours

SMACK Stack for Data Science

14 Hours

Apache Spark Fundamentals

21 Hours

Administration of Apache Spark

35 Hours

Spark for Developers

21 Hours

Scaling Data Pipelines with Spark NLP

14 Hours

Related Categories

1