Plan du cours
- Introduction
- Hadoop histoire, concepts
- Écosystème
- Distributions
- Architecture de haut niveau
- Hadoop mythes
- Hadoop défis (matériel/logiciel)
- Ateliers : discutez de vos projets et problèmes Big Data
- Planification et installation
- Sélection du logiciel, des distributions Hadoop
- Dimensionnement du cluster, planification de la croissance
- Sélection du matériel et du réseau
- Topologie d'étagère
- Installation
- Multi-tenancé
- Structure de répertoire, journaux
- Tests de référence
- Ateliers : installation du cluster et exécution des tests de performance
- Opérations HDFS
- Concepts (échelle horizontale, réplication, localité des données, conscience d'étagère)
- Nœuds et démons (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Surveillance de la santé
- Administration en ligne de commande et par navigateur
- Ajout d'espace de stockage, remplacement des disques défectueux
- Ateliers : familiarisation avec les commandes HDFS
- Ingestion de données
- Flume pour l'ingestion de journaux et d'autres données dans HDFS
- Sqoop pour importer depuis SQL bases de données vers HDFS, ainsi que pour exporter en arrière vers SQL
- Hadoop entrepôts de données avec Hive
- Copie de données entre clusters (distcp)
- Utilisation de S3 en complément d'HDFS
- Meilleures pratiques et architectures pour l'ingestion de données
- Ateliers : configuration et utilisation de Flume, ainsi que de Sqoop
- Opérations MapReduce et administration
- Calcul parallèle avant le mapreduce : comparaison HPC vs Hadoop administration
- Charges de travail du cluster MapReduce
- Nœuds et démons (JobTracker, TaskTracker)
- Parcours d'interface utilisateur MapReduce
- Configuration MapReduce
- Configuration de tâches
- Optimisation MapReduce
- Garantie de fiabilité pour MR : ce qu'il faut dire à vos programmeurs
- Ateliers : exécution d'exemples MapReduce
- YARN : nouvelle architecture et nouvelles fonctionnalités
- Objectifs de conception et architecture implémentée de YARN
- Nouveaux acteurs : ResourceManager, NodeManager, Application Master
- Installation de YARN
- Planification des travaux sous YARN
- Ateliers : investigation de la planification des tâches
- Sujets avancés
- Surveillance du matériel
- Surveillance du cluster
- Ajout et suppression de serveurs, mise à niveau Hadoop
- Sauvegarde, récupération et planification de continuité des activités
- Travaux d'orchestration Oozie
- Hadoop haute disponibilité (HA)
- Hadoop Fédération
- Sécurisation de votre cluster avec Kerberos
- Ateliers : configuration de la surveillance
- Voies optionnelles
- Cloudera Manager pour l'administration, la surveillance et les tâches courantes du cluster ; installation, utilisation. Dans cette voie, toutes les exercices et ateliers sont effectués dans l'environnement de distribution Cloudera (CDH5)
- Ambari pour l'administration, la surveillance et les tâches courantes du cluster ; installation, utilisation. Dans cette voie, toutes les exercices et ateliers sont effectués dans le gestionnaire de cluster Ambari et la plateforme de données Hortonworks (HDP 2.0)
Pré requis
- familiarisé avec l'administration de base du système Linux
- compétences en scripting de base
Une connaissance de Hadoop et du calcul distribué n'est pas requise, mais sera introduite et expliquée dans le cours.
Environnement de laboratoire
Aucune installation : il n'est pas nécessaire d'installer le logiciel hadoop sur les machines des étudiants! Un cluster Hadoop fonctionnel sera fourni aux étudiants.
Les étudiants auront besoin de :
- un client SSH (Linux et Mac disposent déjà d'un client SSH, pour Windows on recommande Putty)
- un navigateur pour accéder au cluster. Nous recommandons le navigateur Firefox avec l'extension FoxyProxy installée
Nos clients témoignent (5)
Les exemples en direct
Ahmet Bolat - Accenture Industrial SS
Formation - Python, Spark, and Hadoop for Big Data
Traduction automatique
Pendant les exercices, James m'a expliqué chaque étape en détail là où j'étais bloqué. Je n'avais aucune expérience avec NIFI au départ. Il m'a expliqué le véritable objectif de NIFI, y compris des notions de base comme le code source ouvert. Il a couvert tous les concepts de Nifi, du niveau débutant au niveau développeur.
Firdous Hashim Ali - MOD A BLOCK
Formation - Apache NiFi for Administrators
Traduction automatique
Préparation et organisation du formateur, et qualité des matériaux fournis sur GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Formation - Impala for Business Intelligence
Traduction automatique
Que je l'aie eu dans un premier temps.
Peter Scales - CACI Ltd
Formation - Apache NiFi for Developers
Traduction automatique
les choses pratiques à faire, ainsi que la théorie qui a été bien expliquée par Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Formation - Hadoop Administration on MapR
Traduction automatique