Prenez contact avec nous

Plan du cours

Introduction :

  • Apache Spark dans l'écosystème Hadoop
  • Brève introduction à Python et Scala

Fondamentaux (théorie) :

  • Architecture
  • RDD
  • Transformations et Actions
  • Étapes, Tâches et Dépendances

Découverte des fondamentaux à l'aide de l'environnement Databricks (atelier pratique) :

  • Exercices avec l'API RDD
  • Fonctions d'actions et de transformations basiques
  • PairRDD
  • Jointures
  • Stratégies de mise en cache
  • Exercices avec l'API DataFrame
  • SparkSQL
  • DataFrame : select, filter, group, sort
  • UDF (User Defined Function)
  • Exploration de l'API Dataset
  • Streaming

Découverte du déploiement à l'aide de l'environnement AWS (atelier pratique) :

  • Fondamentaux d'AWS Glue
  • Compréhension des différences entre AWS EMR et AWS Glue
  • Exemples de jobs sur les deux environnements
  • Avantages et inconvénients de chaque solution

En supplément :

  • Introduction à l'orchestration avec Apache Airflow

Pré requis

Compétences en programmation (de préférence Python et Scala)

Notions de base en SQL

 21 Heures

Nombre de participants


Prix par participant

Nos clients témoignent (3)

Cours à venir

Catégories Similaires