Plan du cours

  • Introduction
    • Hadoop histoire, concepts
    • Écosystème
    • Distributions
    • Architecture de haut niveau
    • Hadoop mythes
    • Hadoop défis (matériel/logiciel)
    • Ateliers : discutez de vos projets et problèmes Big Data
  • Planification et installation
    • Sélection du logiciel, des distributions Hadoop
    • Dimensionnement du cluster, planification de la croissance
    • Sélection du matériel et du réseau
    • Topologie d'étagère
    • Installation
    • Multi-tenancé
    • Structure de répertoire, journaux
    • Tests de référence
    • Ateliers : installation du cluster et exécution des tests de performance
  • Opérations HDFS
    • Concepts (échelle horizontale, réplication, localité des données, conscience d'étagère)
    • Nœuds et démons (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Surveillance de la santé
    • Administration en ligne de commande et par navigateur
    • Ajout d'espace de stockage, remplacement des disques défectueux
    • Ateliers : familiarisation avec les commandes HDFS
  • Ingestion de données
    • Flume pour l'ingestion de journaux et d'autres données dans HDFS
    • Sqoop pour importer depuis SQL bases de données vers HDFS, ainsi que pour exporter en arrière vers SQL
    • Hadoop entrepôts de données avec Hive
    • Copie de données entre clusters (distcp)
    • Utilisation de S3 en complément d'HDFS
    • Meilleures pratiques et architectures pour l'ingestion de données
    • Ateliers : configuration et utilisation de Flume, ainsi que de Sqoop
  • Opérations MapReduce et administration
    • Calcul parallèle avant le mapreduce : comparaison HPC vs Hadoop administration
    • Charges de travail du cluster MapReduce
    • Nœuds et démons (JobTracker, TaskTracker)
    • Parcours d'interface utilisateur MapReduce
    • Configuration MapReduce
    • Configuration de tâches
    • Optimisation MapReduce
    • Garantie de fiabilité pour MR : ce qu'il faut dire à vos programmeurs
    • Ateliers : exécution d'exemples MapReduce
  • YARN : nouvelle architecture et nouvelles fonctionnalités
    • Objectifs de conception et architecture implémentée de YARN
    • Nouveaux acteurs : ResourceManager, NodeManager, Application Master
    • Installation de YARN
    • Planification des travaux sous YARN
    • Ateliers : investigation de la planification des tâches
  • Sujets avancés
    • Surveillance du matériel
    • Surveillance du cluster
    • Ajout et suppression de serveurs, mise à niveau Hadoop
    • Sauvegarde, récupération et planification de continuité des activités
    • Travaux d'orchestration Oozie
    • Hadoop haute disponibilité (HA)
    • Hadoop Fédération
    • Sécurisation de votre cluster avec Kerberos
    • Ateliers : configuration de la surveillance
  • Voies optionnelles
    • Cloudera Manager pour l'administration, la surveillance et les tâches courantes du cluster ; installation, utilisation. Dans cette voie, toutes les exercices et ateliers sont effectués dans l'environnement de distribution Cloudera (CDH5)
    • Ambari pour l'administration, la surveillance et les tâches courantes du cluster ; installation, utilisation. Dans cette voie, toutes les exercices et ateliers sont effectués dans le gestionnaire de cluster Ambari et la plateforme de données Hortonworks (HDP 2.0)

Pré requis

  • familiarisé avec l'administration de base du système Linux
  • compétences en scripting de base

Une connaissance de Hadoop et du calcul distribué n'est pas requise, mais sera introduite et expliquée dans le cours.

Environnement de laboratoire

Aucune installation : il n'est pas nécessaire d'installer le logiciel hadoop sur les machines des étudiants! Un cluster Hadoop fonctionnel sera fourni aux étudiants.

Les étudiants auront besoin de :

  • un client SSH (Linux et Mac disposent déjà d'un client SSH, pour Windows on recommande Putty)
  • un navigateur pour accéder au cluster. Nous recommandons le navigateur Firefox avec l'extension FoxyProxy installée
 21 Heures

Nombre de participants


Prix ​​par Participant

Nos clients témoignent (5)

Cours à venir

Catégories Similaires