Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera dans les plus brefs délais.
Merci pour votre réservation ! Un membre de notre équipe vous contactera dans les plus brefs délais.
Plan du cours
1 : HDFS (17 %)
- Décrire la fonction des démons HDFS
- Décrire le fonctionnement normal d'un cluster Apache Hadoop, tant en stockage de données qu'en traitement de données.
- Identifiez les fonctionnalités actuelles des systèmes informatiques qui motivent un système comme Apache Hadoop.
- Classer les principaux objectifs de HDFS Design
- Étant donné un scénario, identifiez le cas d'utilisation approprié pour la fédération HDFS
- Identifier les composants et le démon d'un cluster HDFS HA-Quorum
- Analyser le rôle de la sécurité HDFS (Kerberos)
- Déterminer le meilleur choix de sérialisation des données pour un scénario donné
- Décrire les chemins de lecture et d'écriture des fichiers
- Identifiez les commandes pour manipuler les fichiers dans le Hadoop File System Shell
2 : YARN et MapReduce version 2 (MRv2) (17 %)
- Comprendre comment la mise à niveau d'un cluster de Hadoop 1 vers Hadoop 2 affecte les paramètres du cluster
- Comprendre comment déployer MapReduce v2 (MRv2 / YARN), y compris tous les démons YARN
- Comprendre la stratégie de conception de base pour MapReduce v2 (MRv2)
- Déterminer comment YARN gère les allocations de ressources
- Identifiez le flux de travail du travail MapReduce exécuté sur YARN
- Déterminez quels fichiers vous devez modifier et comment migrer un cluster de MapReduce version 1 (MRv1) vers MapReduce version 2 (MRv2) exécuté sur YARN.
3 : Hadoop Planification de cluster (16 %)
- Principaux points à considérer dans le choix du matériel et des systèmes d'exploitation pour héberger un cluster Apache Hadoop.
- Analyser les choix de sélection d'un système d'exploitation
- Comprendre le réglage du noyau et l'échange de disques
- Étant donné un scénario et un modèle de charge de travail, identifier une configuration matérielle appropriée au scénario
- Dans un scénario donné, déterminez les composants de l'écosystème que votre cluster doit exécuter pour respecter le SLA.
- Dimensionnement du cluster : en fonction d'un scénario et d'une fréquence d'exécution, identifiez les spécificités de la charge de travail, notamment le processeur, la mémoire, le stockage et les E/S de disque.
- Dimensionnement et configuration des disques, y compris JBOD par rapport aux RAID, SAN, virtualisation et exigences de dimensionnement des disques dans un cluster
- Topologies de réseau : comprendre l'utilisation du réseau dans Hadoop (pour HDFS et MapReduce) et proposer ou identifier les composants clés de conception de réseau pour un scénario donné
4 : Hadoop Installation et administration du cluster (25 %)
- Étant donné un scénario, identifiez comment le cluster gérera les pannes de disque et de machine
- Analyser une configuration de journalisation et le format du fichier de configuration de journalisation
- Comprendre les bases des métriques Hadoop et de la surveillance de l'état du cluster
- Identifier la fonction et le but des outils disponibles pour la surveillance des clusters
- Être capable d'installer tous les composants de l'écosystème dans CDH 5, y compris (mais sans s'y limiter) : Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive et Pig
- Identifier la fonction et l'objectif des outils disponibles pour gérer le système de fichiers Apache Hadoop
5 : Ressource Management (10 %)
- Comprendre les objectifs de conception globaux de chacun des Hadoop planificateurs
- Étant donné un scénario, déterminez comment le planificateur FIFO alloue les ressources du cluster
- Dans un scénario donné, déterminez comment Fair Scheduler alloue les ressources du cluster sous YARN.
- Dans un scénario donné, déterminez comment Capacité Scheduler alloue les ressources du cluster
6 : Surveillance et journalisation (15 %)
- Comprendre les fonctions et les caractéristiques des capacités de collecte de métriques de Hadoop
- Analyser les interfaces utilisateur Web NameNode et JobTracker
- Comprendre comment surveiller les démons du cluster
- Identifiez et surveillez l'utilisation du processeur sur les nœuds maîtres
- Décrire comment surveiller le swap et l'allocation de mémoire sur tous les nœuds
- Identifier comment afficher et gérer les fichiers journaux de Hadoop
- Interpréter un fichier journal
Pré requis
- Compétences de base en administration Linux
- Compétences de base en programmation
35 heures
Nos Clients témoignent (3)
Many hands-on sessions.
Jacek Pieczątka
Formation - Administrator Training for Apache Hadoop
Big competences of Trainer
Grzegorz Gorski
Formation - Administrator Training for Apache Hadoop
Trainer give reallive Examples