Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera dans les plus brefs délais.
Merci pour votre réservation ! Un membre de notre équipe vous contactera dans les plus brefs délais.
Plan du cours
Introduction :
- Apache Spark dans Hadoop Ecosystème
- Courte introduction pour python, scala
Bases (théorie) :
- Architecture
- RDD
- Transformation et actions
- Étape, tâche, dépendances
Utilisation de l'environnement Databricks pour comprendre les bases (atelier pratique) :
- Exercices utilisant l'API RDD
- Fonctions d'action et de transformation de base
- PairRDD
- Joindre
- Stratégies de mise en cache
- Exercices utilisant l'API DataFrame
- SparkSQL
- DataFrame : sélectionner, filtrer, grouper, trier
- UDF (fonction définie par l'utilisateur)
- Examen de l'API DataSet
- Streaming
Utilisation de l'environnement AWS pour comprendre le déploiement (atelier pratique) :
- Notions de base sur AWS Glue
- Comprendre les différences entre AWS EMR et AWS Glue
- Exemples de travaux dans les deux environnements
- Comprendre les avantages et les inconvénients
Extra :
- Introduction à l'orchestration Apache Airflow
Pré requis
Compétences en programmation (de préférence python, scala)
SQL fondamentaux
21 heures
Nos Clients témoignent (3)
Having hands on session / assignments
Poornima Chenthamarakshan - Intelligent Medical Objects
Formation - Apache Spark in the Cloud
1. Right balance between high level concepts and technical details. 2. Andras is very knowledgeable about his teaching. 3. Exercise
Steven Wu - Intelligent Medical Objects
Formation - Apache Spark in the Cloud
Get to learn spark streaming , databricks and aws redshift