Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Plan du cours
Introduction :
- Apache Spark dans Hadoop Ecosystème
- Courte introduction pour python, scala
Bases (théorie) :
- Architecture
- RDD
- Transformation et actions
- Étape, tâche, dépendances
Utilisation de l'environnement Databricks pour comprendre les bases (atelier pratique) :
- Exercices utilisant l'API RDD
- Fonctions d'action et de transformation de base
- PairRDD
- Joindre
- Stratégies de mise en cache
- Exercices utilisant l'API DataFrame
- SparkSQL
- DataFrame : sélectionner, filtrer, grouper, trier
- UDF (fonction définie par l'utilisateur)
- Examen de l'API DataSet
- Streaming
Utilisation de l'environnement AWS pour comprendre le déploiement (atelier pratique) :
- Notions de base sur AWS Glue
- Comprendre les différences entre AWS EMR et AWS Glue
- Exemples de travaux dans les deux environnements
- Comprendre les avantages et les inconvénients
Extra :
- Introduction à l'orchestration Apache Airflow
Pré requis
Compétences en programmation (de préférence python, scala)
SQL fondamentaux
21 heures
Nos Clients témoignent (3)
Having hands on session / assignments
Poornima Chenthamarakshan - Intelligent Medical Objects
Formation - Apache Spark in the Cloud
1. Right balance between high level concepts and technical details. 2. Andras is very knowledgeable about his teaching. 3. Exercise
Steven Wu - Intelligent Medical Objects
Formation - Apache Spark in the Cloud
Get to learn spark streaming , databricks and aws redshift