Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Introduction :
- Apache Spark dans l'écosystème Hadoop
- Brève introduction à Python et Scala
Fondamentaux (théorie) :
- Architecture
- RDD
- Transformations et Actions
- Étapes, Tâches et Dépendances
Découverte des fondamentaux à l'aide de l'environnement Databricks (atelier pratique) :
- Exercices avec l'API RDD
- Fonctions d'actions et de transformations basiques
- PairRDD
- Jointures
- Stratégies de mise en cache
- Exercices avec l'API DataFrame
- SparkSQL
- DataFrame : select, filter, group, sort
- UDF (User Defined Function)
- Exploration de l'API Dataset
- Streaming
Découverte du déploiement à l'aide de l'environnement AWS (atelier pratique) :
- Fondamentaux d'AWS Glue
- Compréhension des différences entre AWS EMR et AWS Glue
- Exemples de jobs sur les deux environnements
- Avantages et inconvénients de chaque solution
En supplément :
- Introduction à l'orchestration avec Apache Airflow
Pré requis
Compétences en programmation (de préférence Python et Scala)
Notions de base en SQL
21 Heures
Nos clients témoignent (3)
Avoir des sessions pratiques / des devoirs
Poornima Chenthamarakshan - Intelligent Medical Objects
Formation - Apache Spark in the Cloud
Traduction automatique
1. Bon équilibre entre les concepts de haut niveau et les détails techniques. 2. Andras est très compétent dans son enseignement. 3. Exercice
Steven Wu - Intelligent Medical Objects
Formation - Apache Spark in the Cloud
Traduction automatique
Découvrez le streaming Spark, Databricks et AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Formation - Apache Spark in the Cloud
Traduction automatique