Plan du cours

    Introduction à Scala Une introduction rapide à Scala Labs : Connaître les bases de Scala Spark Contexte et historique Concepts et architecture de Spark et Hadoop Spark Eco-système Spark (core, spark sql, mlib, streaming) Labs : Installer et exécuter Spark Premier aperçu de Spark Exécution de Spark dans mode local Spark web UI Spark Shell Analyse de l'ensemble de données - partie 1 Inspection des RDD Labs : Exploration du shell Spark RDD Concepts des RDD Partitions RDD Opérations / transformations Types de RDD Paire clé-valeur RDD MapReduce sur RDD Mise en cache et persistance Labs : création et inspection des RDD ; Mise en cache des RDD Programmation de l'API Spark Introduction à l'API Spark / API RDD Soumission du premier programme à Spark Débogage / journalisation Propriétés de configuration Labs : Programmation dans l'API Spark, Soumission de tâches Prise en charge de Spark SQL SQL dans Spark Dataframes Définition de tables et importation d'ensembles de données Interrogation de données frames utilisant SQL Formats de stockage : JSON / Parquet Labs : Création et interrogation de data frames ; évaluation des formats de données MLlib Introduction à MLlib Algorithmes MLlib Laboratoires : Écriture d'applications MLib GraphX Présentation de la bibliothèque GraphX Laboratoires des API GraphX : Traitement des données graphiques à l'aide de Spark Spark Streaming Présentation du streaming Évaluation des plateformes de streaming Opérations de streaming Opérations par fenêtre coulissante Labs : Écriture d'applications de streaming Spark Spark et Hadoop Hadoop Intro ( HDFS / YARN) Architecture Hadoop + Spark Exécution de Spark sur Hadoop YARN Traitement des fichiers HDFS à l'aide de Spark Spark Performances et réglage des variables de diffusion Accumulateurs Gestion de la mémoire et mise en cache Opérations Spark Déploiement de Spark en production Exemples de modèles de déploiement Configurations Surveillance Dépannage

Pré requis

PRÉ-REQUIS

familiarité avec le langage Java / Scala / Python (nos laboratoires en Scala et Python) connaissance de base de l'environnement de développement Linux (navigation en ligne de commande / édition de fichiers à l'aide de VI ou nano)

  21 heures
 

Nombre de participants


Début

Fin


Dates are subject to availability and take place between 09:30 and 16:30.
Les formations ouvertes requièrent plus de 3 participants.

Cours Similaires

Big Data Analytics in Health

  21 heures

Catégories Similaires