Plan du cours

Section 1 : Introduction à Hadoop

  • Histoire d'Hadoop, concepts
  • éco système
  • distributions
  • architecture de haut niveau
  • Mythes d'Hadoop
  • défis hadoop
  • matériel / logiciel
  • laboratoire : premier regard sur Hadoop

Section 2 : HDFS

  • Conception et architecture
  • concepts (mise à l'échelle horizontale, réplication, localité des données, prise en compte des racks)
  • Daemons : Nœud de noms, Nœud de noms secondaire, Nœud de données
  • communications / battements de cœur
  • intégrité des données
  • chemin de lecture/écriture
  • Namenode Haute disponibilité (HA), Fédération
  • laboratoires : Interagir avec HDFS

Section 3 : Map Reduce

  • concepts et architecture
  • démons (MRV1) : jobtracker / tasktracker
  • phases : driver, mapper, shuffle/sort, reducer
  • Map Reduce Version 1 et Version 2 (YARN)
  • Fonctionnement interne de Map Reduce
  • Introduction au Java programme Map Reduce
  • Travaux pratiques : Exécution d'un exemple de programme MapReduce

Section 4 : Pig

  • Pig vs java map reduce
  • flux de travail de pig
  • Pig langage latin
  • ETL avec Pig
  • Transformations et jointures
  • Fonctions définies par l'utilisateur (UDF)
  • labs : écrire des scripts Pig pour analyser des données

Section 5 : Hive

  • architecture et conception
  • types de données
  • Support SQL dans Hive
  • Création Hive de tables et interrogation
  • partitions
  • jointures
  • traitement de texte
  • labs : divers labs sur le traitement des données avec Hive

Section 6 : HBase

  • concepts et architecture
  • hbase vs RDBMS vs cassandra
  • API HBase Java
  • Données de séries temporelles sur HBase
  • conception de schémas
  • travaux pratiques : Interagir avec HBase en utilisant le shell ; programmation dans HBase Java API ; exercice de conception de schéma

Pré requis

  • à l'aise avec le langage de programmation Java (la plupart des exercices de programmation sont en Java)
  • A l'aise dans l'environnement Linux (être capable de naviguer dans la ligne de commande Linux, d'éditer des fichiers en utilisant vi / nano)

Lab environment

Zéro installation : Il n'est pas nécessaire d'installer le logiciel Hadoop sur les machines des étudiants ! Un cluster Hadoop fonctionnel sera fourni aux étudiants.

Les étudiants auront besoin des éléments suivants

  • un client SSH (Linux et Mac ont déjà des clients SSH, pour Windows Putty est recommandé)
  • un navigateur pour accéder au cluster. Nous recommandons le navigateur Firefox
  28 heures
 

Nombre de participants


Début

Fin


Dates are subject to availability and take place between 09:30 and 16:30.

Prix par participant

Nos Clients témoignent (3)

Cours Similaires

Catégories Similaires