Course Outline

Module 1. Inleiding tot Hadoop

  • Het Hadoop gedistribueerde bestandssysteem (HDFS)
  • Het leespad en het schrijfpad
  • Metagegevens van bestandssysteem beheren
  • De Namenode en de Datanode
  • De Namenode hoge beschikbaarheid
  • Naamknoop Federatie
  • De opdrachtregelhulpmiddelen
  • REST-ondersteuning begrijpen

Module 2. Inleiding tot MapReduce

  • De gegevens analyseren met Hadoop
  • Patroon in kaart brengen en verminderen
  • Java MapReduce
  • Uitschalen
  • Informatiestroom
  • Combinerfuncties ontwikkelen
  • Een gedistribueerde MapReduce-taak uitvoeren

Module 3. Een Hadoop cluster plannen

  • Een distributie en versie kiezen van Hadoop
  • Versies en functies
  • Hardwareselectie
  • Hardwareselectie van meester en werknemer
  • Clustergrootte
  • Selectie en voorbereiding van besturingssystemen
  • Implementatie-indeling
  • Gebruikers, groepen en rechten instellen
  • Schijfconfiguratie
  • Netwerk ontwerp

Module 4. Installatie en configuratie

  • Installeren Hadoop
  • Configuratie: een overzicht
  • De Hadoop XML configuratiebestanden
  • Omgevingsvariabelen en shell-scripts
  • Logboekconfiguratie
  • HDFS beheren
  • Optimalisatie en afstemming
  • Het naamknooppunt formatteren
  • Een /tmp-map maken
  • Denken Namenode Hoge beschikbaarheid
  • De hekopties
  • Automatische failoverconfiguratie
  • Format en Bootstrap de Namenodes
  • Naamknoop Federatie

Module 5. I/O Hadoop begrijpen

  • Gegevensintegriteit in HDFS
  • Codecs begrijpen
  • Compressie en invoersplitsingen
  • Compressie gebruiken in MapReduce
  • Het serialisatiemechanisme
  • Op bestanden gebaseerde gegevensstructuren
  • Het SequenceFile-formaat
  • Andere bestandsformaten en kolomgeoriënteerde formaten

Module 6. Een MapReduce-applicatie ontwikkelen

  • De configuratie-API
  • Het opzetten van de ontwikkelomgeving
  • Configuratie beheren
  • Generieke OptiesParser, Tool en ToolRunner
  • Een unittest schrijven met MRUnit
  • De Mapper en Reducer
  • Lokaal uitgevoerd op testgegevens
  • Het testen van de bestuurder
  • Draait op een cluster
  • Een baan verpakken en lanceren
  • De MapReduce-webinterface
  • Een taak afstemmen

Module 7. Identiteit, authenticatie en autorisatie

  • Identiteit beheren
  • Kerberos en Hadoop
  • Autorisatie begrijpen

Module 8. Hulpbron Management

  • Wat is hulpbron Management?
  • HDFS-quota
  • MapReduce-planners
  • Anatomie van een YARN-toepassingsrun
  • Bronverzoeken
  • Levensduur van toepassing
  • GAREN Vergeleken met MapReduce 1
  • Planning in YARN
  • Planner-opties
  • Configuratie van capaciteitsplanner
  • Eerlijke Scheduler-configuratie
  • Vertraging planning
  • Dominante eerlijkheid van hulpbronnen

Module 9. MapReduce-typen en formaten

  • MapReduce-typen
  • De standaard MapReduce-taak
  • De invoerformaten definiëren
  • Invoersplitsingen en records beheren
  • Tekstinvoer en binaire invoer
  • Meerdere ingangen beheren
  • Database Ingang (en uitgang)
  • Uitvoerformaten
  • Tekstuitvoer en binaire uitvoer
  • Meerdere uitgangen beheren
  • De Database-uitvoer

Module 10. MapReduce-functies gebruiken

  • Tellers gebruiken
  • Ingebouwde tellers lezen
  • Door de gebruiker gedefinieerde Java tellers
  • Sorteren begrijpen
  • De gedistribueerde cache gebruiken

Module 11. Clusteronderhoud en probleemoplossing

  • Beheren van Hadoop Processen
  • Processen starten en stoppen met init-scripts
  • Processen handmatig starten en stoppen
  • HDFS-onderhoudstaken
  • Een Datanode toevoegen
  • Een Datanode buiten gebruik stellen
  • Bestandssysteemintegriteit controleren met fsck
  • Balanceren van HDFS-blokgegevens
  • Omgaan met een defecte schijf
  • MapReduce onderhoudstaken
  • Een MapReduce-taak beëindigen
  • Een MapReduce-taak beëindigen
  • Beheer van de uitputting van hulpbronnen

Module 12. Toezicht

  • De beschikbare Hadoop statistieken
  • De rol van SNMP
  • Gezondheidsbewaking
  • Controles op hostniveau
  • HDFS-controles
  • KaartVerminder controles

Module 13. Back-up en herstel

  • Reservekopie van gegevens
  • Gedistribueerde kopie (distcp)
  • Parallelle gegevensopname
  • Metagegevens van naamknooppunt
 21 Hours

Number of participants



Price per participant

Getuigenissen (1)

Related Courses

Hortonworks Data Platform (HDP) for Administrators

21 Hours

Apache Ambari: Efficiently Manage Hadoop Clusters

21 Hours

Impala for Business Intelligence

21 Hours

Data Analysis with Hive/HiveQL

7 Hours

Administrator Training for Apache Hadoop

35 Hours

Big Data Analytics in Health

21 Hours

Datameer for Data Analysts

14 Hours

Hadoop Administration

21 Hours

Hadoop For Administrators

21 Hours

Hadoop for Developers (4 days)

28 Hours

Advanced Hadoop for Developers

21 Hours

Hadoop for Project Managers

14 Hours

Hadoop Administration on MapR

28 Hours

Hadoop with Python

28 Hours

Hadoop and Spark for Administrators

35 Hours

Related Categories