Plan du cours

1 : HDFS (17 %)

  • Décrire la fonction des démons HDFS
  • Décrire le fonctionnement normal d'un cluster Apache Hadoop, tant en stockage de données qu'en traitement de données.
  • Identifiez les fonctionnalités actuelles des systèmes informatiques qui motivent un système comme Apache Hadoop.
  • Classer les principaux objectifs de HDFS Design
  • Étant donné un scénario, identifiez le cas d'utilisation approprié pour la fédération HDFS
  • Identifier les composants et le démon d'un cluster HDFS HA-Quorum
  • Analyser le rôle de la sécurité HDFS (Kerberos)
  • Déterminer le meilleur choix de sérialisation des données pour un scénario donné
  • Décrire les chemins de lecture et d'écriture des fichiers
  • Identifiez les commandes pour manipuler les fichiers dans le Hadoop File System Shell

2 : YARN et MapReduce version 2 (MRv2) (17 %)

  • Comprendre comment la mise à niveau d'un cluster de Hadoop 1 vers Hadoop 2 affecte les paramètres du cluster
  • Comprendre comment déployer MapReduce v2 (MRv2 / YARN), y compris tous les démons YARN
  • Comprendre la stratégie de conception de base pour MapReduce v2 (MRv2)
  • Déterminer comment YARN gère les allocations de ressources
  • Identifiez le flux de travail du travail MapReduce exécuté sur YARN
  • Déterminez quels fichiers vous devez modifier et comment migrer un cluster de MapReduce version 1 (MRv1) vers MapReduce version 2 (MRv2) exécuté sur YARN.

3 : Hadoop Planification de cluster (16 %)

  • Principaux points à considérer dans le choix du matériel et des systèmes d'exploitation pour héberger un cluster Apache Hadoop.
  • Analyser les choix de sélection d'un système d'exploitation
  • Comprendre le réglage du noyau et l'échange de disques
  • Étant donné un scénario et un modèle de charge de travail, identifier une configuration matérielle appropriée au scénario
  • Dans un scénario donné, déterminez les composants de l'écosystème que votre cluster doit exécuter pour respecter le SLA.
  • Dimensionnement du cluster : en fonction d'un scénario et d'une fréquence d'exécution, identifiez les spécificités de la charge de travail, notamment le processeur, la mémoire, le stockage et les E/S de disque.
  • Dimensionnement et configuration des disques, y compris JBOD par rapport aux RAID, SAN, virtualisation et exigences de dimensionnement des disques dans un cluster
  • Topologies de réseau : comprendre l'utilisation du réseau dans Hadoop (pour HDFS et MapReduce) et proposer ou identifier les composants clés de conception de réseau pour un scénario donné

4 : Hadoop Installation et administration du cluster (25 %)

  • Étant donné un scénario, identifiez comment le cluster gérera les pannes de disque et de machine
  • Analyser une configuration de journalisation et le format du fichier de configuration de journalisation
  • Comprendre les bases des métriques Hadoop et de la surveillance de l'état du cluster
  • Identifier la fonction et le but des outils disponibles pour la surveillance des clusters
  • Être capable d'installer tous les composants de l'écosystème dans CDH 5, y compris (mais sans s'y limiter) : Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive et Pig
  • Identifier la fonction et l'objectif des outils disponibles pour gérer le système de fichiers Apache Hadoop

5 : Ressource Management (10 %)

  • Comprendre les objectifs de conception globaux de chacun des Hadoop planificateurs
  • Étant donné un scénario, déterminez comment le planificateur FIFO alloue les ressources du cluster
  • Dans un scénario donné, déterminez comment Fair Scheduler alloue les ressources du cluster sous YARN.
  • Dans un scénario donné, déterminez comment Capacité Scheduler alloue les ressources du cluster

6 : Surveillance et journalisation (15 %)

  • Comprendre les fonctions et les caractéristiques des capacités de collecte de métriques de Hadoop
  • Analyser les interfaces utilisateur Web NameNode et JobTracker
  • Comprendre comment surveiller les démons du cluster
  • Identifiez et surveillez l'utilisation du processeur sur les nœuds maîtres
  • Décrire comment surveiller le swap et l'allocation de mémoire sur tous les nœuds
  • Identifier comment afficher et gérer les fichiers journaux de Hadoop
  • Interpréter un fichier journal

Pré requis

  • Compétences de base en administration Linux
  • Compétences de base en programmation
  35 heures
 

Nombre de participants


Début

Fin


Dates are subject to availability and take place between 09:30 and 16:30.
Les formations ouvertes requièrent plus de 3 participants.

Nos Clients témoignent (3)

Cours Similaires

Catégories Similaires