Prenez contact avec nous

Plan du cours

  • Introduction
    • Histoire et concepts de Hadoop
    • Écosystème
    • Distributions
    • Architecture de haut niveau
    • Mythes sur Hadoop
    • Défis liés à Hadoop (matériel / logiciel)
    • Travaux pratiques : discussion sur vos projets et problèmes de mégadonnées
  • Planification et installation
    • Sélection du logiciel, distributions de Hadoop
    • Dimensionnement de la grille, planification de l'évolution
    • Sélection du matériel et du réseau
    • Topologie des baies
    • Installation
    • Multi-tenancy (multi-locataire)
    • Structure des répertoires, journaux
    • Tests de référence (Benchmarking)
    • Travaux pratiques : installation de la grille, exécution de tests de performance
  • Opérations HDFS
    • Concepts (mise à l'échelle horizontale, réplication, localisation des données, conscience de la baie)
    • Nœuds et daemons (NameNode, Secondary NameNode, Standby NameNode pour la HA, DataNode)
    • Surveillance de la santé
    • Administration en ligne de commande et via navigateur
    • Ajout de stockage, remplacement de disques défectueux
    • Travaux pratiques : prise en main des lignes de commande HDFS
  • Ingestion de données
    • Flume pour les journaux et l'ingestion d'autres données dans HDFS
    • Sqoop pour l'importation depuis des bases de données SQL vers HDFS, ainsi que l'exportation vers SQL
    • Entrepôt de données Hadoop avec Hive
    • Copie de données entre les grilles (distcp)
    • Utilisation de S3 en complément de HDFS
    • Bonnes pratiques et architectures d'ingestion de données
    • Travaux pratiques : configuration et utilisation de Flume, puis de Sqoop
  • Opérations et administration MapReduce
    • Calcul parallèle avant MapReduce : comparaison de l'administration HPC vs Hadoop
    • Charges de la grille MapReduce
    • Nœuds et Daemons (JobTracker, TaskTracker)
    • Parcours de l'interface utilisateur MapReduce
    • Configuration de MapReduce
    • Configuration des jobs
    • Optimisation de MapReduce
    • Robustesse de MR : ce qu'il faut dire à vos programmeurs
    • Travaux pratiques : exécution d'exemples MapReduce
  • YARN : nouvelle architecture et nouvelles fonctionnalités
    • Objectifs de conception et architecture de mise en œuvre de YARN
    • Nouveaux acteurs : ResourceManager, NodeManager, Application Master
    • Installation de YARN
    • Ordonnancement des jobs sous YARN
    • Travaux pratiques : investigation sur l'ordonnancement des jobs
  • Sujets avancés
    • Surveillance du matériel
    • Surveillance de la grille
    • Ajout et suppression de serveurs, mise à niveau de Hadoop
    • Planification de la sauvegarde, de la récupération et de la continuité des activités
    • Flux de travail des jobs Oozie
    • Haute disponibilité de Hadoop (HA)
    • Fédération Hadoop
    • Sécurisation de votre grille avec Kerberos
    • Travaux pratiques : configuration de la surveillance
  • Voies optionnelles
    • Cloudera Manager pour l'administration de la grille, la surveillance et les tâches courantes ; installation, utilisation. Dans cette voie, tous les exercices et travaux pratiques sont effectués dans l'environnement de distribution Cloudera (CDH5)
    • Ambari pour l'administration de la grille, la surveillance et les tâches courantes ; installation, utilisation. Dans cette voie, tous les exercices et travaux pratiques sont effectués dans le gestionnaire de grilles Ambari et la Hortonworks Data Platform (HDP 2.0)

Pré requis

  • aisance avec l'administration de base des systèmes Linux
  • compétences de base en scripting

La connaissance de Hadoop et de l'informatique distribuée n'est pas requise, mais sera introduite et expliquée pendant la formation.

Environnement de laboratoire

Installation zéro : Il n'est pas nécessaire d'installer le logiciel Hadoop sur les machines des étudiants ! Une grille Hadoop fonctionnelle sera mise à disposition des participants.

Les participants auront besoin des éléments suivants

  • un client SSH (Linux et Mac disposent déjà d'un client SSH, pour Windows, Putty est recommandé)
  • un navigateur pour accéder à la grille. Nous recommandons le navigateur Firefox avec l'extension FoxyProxy installée
 21 Heures

Nombre de participants


Prix par participant

Nos clients témoignent (1)

Cours à venir

Catégories Similaires