Plan du cours

Module 1. Introduction à Hadoop

  • Le Hadoop système de fichiers distribués (HDFS)
  • Le chemin de lecture et le chemin d'écriture
  • Gestion des métadonnées du système de fichiers
  • Le Namenode et le Datanode
  • La haute disponibilité du Namenode
  • Fédération Namenode
  • Les outils en ligne de commande
  • Comprendre le support REST

Module 2. Introduction à MapReduce

  • Analyser les données avec Hadoop
  • Modèle Map et Reduce
  • Java MapReduce
  • Mise à l'échelle
  • Flux de données
  • Développement de fonctions combinatoires
  • Exécution d'une tâche MapReduce distribuée

Module 3. Planification d'un cluster Hadoop

  • Choisir une distribution et une version de Hadoop
  • Versions et fonctionnalités
  • Sélection du matériel
  • Sélection du matériel maître et travailleur
  • Dimensionnement de la grappe
  • Sélection et préparation du système d'exploitation
  • Configuration du déploiement
  • Configuration des utilisateurs, des groupes et des privilèges
  • Configuration des disques
  • Conception du réseau

Module 4. Installation et configuration

  • Installation Hadoop
  • Configuration : Vue d'ensemble
  • Les fichiers de configuration Hadoop XML
  • Variables d'environnement et scripts Shell
  • Configuration de la journalisation
  • Gestion de HDFS
  • Optimisation et réglage
  • Formatage du Namenode
  • Créer un répertoire /tmp
  • Penser la haute disponibilité du Namenode
  • Les options de clôture
  • Configuration du basculement automatique
  • Formater et Bootstrap les Namenodes
  • Fédération des Namenodes

Module 5. Comprendre les Hadoop E/S

  • Intégrité des données dans HDFS
  • Comprendre les codecs
  • Compression et fractionnement des entrées
  • Utiliser la compression dans MapReduce
  • Le mécanisme de sérialisation
  • Structures de données basées sur des fichiers
  • Le format SequenceFile
  • Autres formats de fichiers et formats orientés colonnes

Module 6. Développer une application MapReduce

  • L'API de configuration
  • Configurer l'environnement de développement
  • Gestion de la configuration
  • GenericOptionsParser, Tool et ToolRunner
  • Écrire un test unitaire avec MRUnit
  • Le mappeur et le réducteur
  • Exécution locale sur des données de test
  • Test du pilote
  • Exécution sur un cluster
  • Emballage et lancement d'un travail
  • L'interface Web MapReduce
  • Mise au point d'un job

Module 7. Identité, authentification et autorisation

  • Gestion de l'identité
  • Kerberos et Hadoop
  • Comprendre l'autorisation

Module 8. Ressources Management

  • Qu'est-ce qu'une ressource Management ?
  • Quotas HDFS
  • Ordonnanceurs MapReduce
  • Anatomie d'une exécution d'application YARN
  • Demandes de ressources
  • Durée de vie d'une application
  • YARN comparé à MapReduce 1
  • Ordonnancement dans YARN
  • Options du planificateur
  • Configuration de l'ordonnanceur de capacité
  • Configuration de l'ordonnanceur équitable
  • Ordonnancement à retardement
  • Équité des ressources dominantes

Module 9. Types et formats de MapReduce

  • Types de MapReduce
  • Le job MapReduce par défaut
  • Définir les formats d'entrée
  • Gérer les divisions et les enregistrements d'entrée
  • Entrées textuelles et entrées binaires
  • Gestion des entrées multiples
  • Database Entrée (et sortie)
  • Formats de sortie
  • Sortie texte et sortie binaire
  • Gestion de plusieurs sorties
  • La Database sortie

Module 10. Utiliser les fonctionnalités de MapReduce

  • Utilisation des compteurs
  • Lire les compteurs intégrés
  • Compteurs définis par l'utilisateur Java
  • Comprendre le tri
  • Utiliser le cache distribué

Module 11. Maintenance et dépannage des clusters

  • Gestion des Hadoop processus
  • Démarrage et arrêt des processus avec les scripts Init
  • Démarrer et arrêter les processus manuellement
  • Tâches de maintenance HDFS
  • Ajout d'un datanode
  • Mise hors service d'un nœud de données
  • Vérifier l'intégrité du système de fichiers avec fsck
  • Équilibrer les données des blocs HDFS
  • Gestion d'un disque défectueux
  • Tâches de maintenance de MapReduce
  • Tuer une tâche MapReduce
  • Tuer une tâche MapReduce
  • Gérer l'épuisement des ressources

Module 12. Surveillance

  • Les métriques disponibles Hadoop
  • Le rôle de SNMP
  • Surveillance de l'état de santé
  • Contrôles au niveau de l'hôte
  • Contrôles HDFS
  • Contrôles MapReduce

Module 13. Sauvegarde et récupération

  • Sauvegarde des données
  • Copie distribuée (distcp)
  • Ingestion de données en parallèle
  • Métadonnées Namenode
  21 heures
 

Nombre de participants


Début

Fin


Dates are subject to availability and take place between 09:30 and 16:30.
Les formations ouvertes requièrent plus de 3 participants.

Nos Clients témoignent (1)

Cours Similaires

Catégories Similaires