Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Course Outline
Introductie:
- Apache Spark in Hadoop Ecosysteem
- Korte intro voor python, scala
Basis (theorie):
- Architectuur
- RDD
- Transformatie en acties
- Fase, taak, afhankelijkheden
Met behulp van Databricks omgeving begrijp je de basis (hands-on workshop):
- Oefeningen met behulp van RDD API
- Basisfuncties voor actie en transformatie
- PairRDD
- Verbinden
- Strategieën voor caching
- Oefeningen met behulp van de DataFrame-API
- VonkSQL
- DataFrame: selecteren, filteren, groeperen, sorteren
- UDF (door de gebruiker gedefinieerde functie)
- Kijken naar DataSet API
- Streaming
Met behulp van AWS-omgeving inzicht in de implementatie (hands-on workshop):
- Basisprincipes van AWS-lijm
- Begrijp de verschillen tussen AWS EMR en AWS Glue
- Voorbeeldtaken in beide omgevingen
- Begrijp de voor- en nadelen
Extra:
- Inleiding tot Apache Airflow orkestratie
Requirements
Programmeervaardigheden (bij voorkeur Python, Scala)
SQL basis
21 Hours
Testimonials (3)
Having hands on session / assignments
Poornima Chenthamarakshan - Intelligent Medical Objects
Cursus - Apache Spark in the Cloud
1. Right balance between high level concepts and technical details. 2. Andras is very knowledgeable about his teaching. 3. Exercise
Steven Wu - Intelligent Medical Objects
Cursus - Apache Spark in the Cloud
Get to learn spark streaming , databricks and aws redshift