Plan du cours

  • Introduction
    • Hadoop histoire, concepts
    • Ecosystème
    • Distributions
    • Architecture de haut niveau
    • Hadoop mythes
    • Hadoop défis (matériel / logiciel)
    • Labs : discutez de vos Big Data projets et problèmes
  • Planification et installation
    • Sélection des logiciels, Hadoop distributions
    • Dimensionnement du cluster, planification de la croissance
    • Sélection du matériel et du réseau
    • Topologie du rack
    • L'installation
    • Multi-tenance
    • Structure des répertoires, journaux
    • Benchmarking
    • Labs : installation d'un cluster, tests de performance
  • Opérations HDFS
    • Concepts (mise à l'échelle horizontale, réplication, localité des données, prise en compte du rack)
    • Nœuds et démons (NameNode, NameNode secondaire, HA Standby NameNode, DataNode)
    • Surveillance de l'état de santé
    • Administration en ligne de commande et par navigateur
    • Ajout de stockage, remplacement des disques défectueux
    • Travaux pratiques : se familiariser avec les lignes de commande HDFS
  • Ingestion de données
    • Flume pour l'ingestion de logs et d'autres données dans HDFS
    • Sqoop pour l'importation des bases de données SQL vers HDFS, ainsi que l'exportation vers SQL.
    • Hadoop entreposage de données avec Hive
    • Copie de données entre clusters (distcp)
    • Utilisation de S3 en complément de HDFS
    • Meilleures pratiques et architectures d'ingestion de données
    • Labos : mise en place et utilisation de Flume, idem pour Sqoop
  • Opérations et administration de MapReduce
    • Le calcul parallèle avant MapReduce : comparaison entre l'administration HPC et l'administration Hadoop
    • Charges des clusters MapReduce
    • Nœuds et Daemons (JobTracker, TaskTracker)
    • Visite de l'interface MapReduce
    • Configuration de Mapreduce
    • Configuration des tâches
    • Optimisation de MapReduce
    • MR à l'épreuve des erreurs : ce qu'il faut dire à vos programmeurs
    • Labs : exemples d'exécution de MapReduce
  • YARN : nouvelle architecture et nouvelles capacités
    • Objectifs de conception de YARN et architecture de mise en œuvre
    • Nouveaux acteurs : ResourceManager, NodeManager, Application Master
    • Installation de YARN
    • Planification des tâches sous YARN
    • Travaux pratiques : étudier l'ordonnancement des tâches
  • Sujets avancés
    • Surveillance du matériel
    • Surveillance des clusters
    • Ajout et suppression de serveurs, mise à niveau Hadoop.
    • Sauvegarde, récupération et planification de la continuité des activités
    • Flux de travaux Oozie
    • Hadoop Haute disponibilité (HA)
    • Hadoop Fédération
    • Sécurisation de votre cluster avec Kerberos
    • Labos : mise en place de la surveillance
  • Pistes optionnelles
    • Cloudera Manager pour l'administration du cluster, la surveillance et les tâches de routine ; installation, utilisation. Dans ce cours, tous les exercices et laboratoires sont réalisés dans l'environnement de distribution Cloudera (CDH5).
    • Ambari pour l'administration des clusters, la surveillance et les tâches de routine ; installation, utilisation. Dans ce cours, tous les exercices et les laboratoires sont réalisés avec le gestionnaire de cluster Ambari et Hortonworks Data Platform (HDP 2.0).

Pré requis

  • A l'aise avec l'administration de base Linux du système
  • .
  • Compétences de base en écriture de scripts

La connaissance de Hadoop et de l'informatique distribuée n'est pas requise, mais elle sera présentée et expliquée dans le cours.

Lab environment

Zéro installation : Il n'est pas nécessaire d'installer le logiciel Hadoop sur les machines des étudiants ! Un cluster Hadoop fonctionnel sera fourni aux étudiants.

Les étudiants auront besoin des éléments suivants

  • un client SSH (Linux et Mac ont déjà des clients SSH, pour Windows Putty est recommandé)
  • un navigateur pour accéder au cluster. Nous recommandons le navigateur Firefox avec l'extension FoxyProxy installée
  21 heures
 

Nombre de participants


Début

Fin


Dates are subject to availability and take place between 09:30 and 16:30.
Les formations ouvertes requièrent plus de 3 participants.

Nos Clients témoignent (3)

Cours Similaires

Catégories Similaires