Cursusaanbod

  • Inleiding
    • Hadoop geschiedenis, concepten
    • Ecosysteem
    • Distributies
    • Hoog niveau architectuur
    • Hadoop mythen
    • Hadoop uitdagingen (hardware / software)
    • Labs: bespreek uw Big Data projecten en problemen
  • Planning en installatie
    • Software selecteren, Hadoop distributies
    • Cluster dimensioneren, plannen voor groei
    • Hardware en netwerk selecteren
    • Rack topologie
    • Installatie
    • Multi-tenancy
    • Directory structuur, logs
    • Benchmarking
    • Labs: cluster installeren, prestatie benchmarks uitvoeren
  • HDFS-operaties
    • Concepten (horizontale schaalbaarheid, replicatie, data-locatiebewustzijn, rack-gevoeligheid)
    • Nodes en daemons (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Gezondheidsmonitoring
    • Beheer via opdrachtregel en browser
    • Opslag toevoegen, defecte schijven vervangen
    • Labs: kennismaken met HDFS-opdrachtregels
  • Data-inname
    • Flume voor logs en andere data-inname in HDFS
    • Sqoop voor het importeren van SQL databases naar HDFS en voor het exporteren terug naar SQL
    • Hadoop datawarehousing met Hive
    • Data kopiëren tussen clusters (distcp)
    • Het gebruik van S3 als aanvulling op HDFS
    • Beste praktijken en architecturen voor data-inname
    • Labs: instellen en gebruiken van Flume, hetzelfde voor Sqoop
  • MapReduce-operaties en beheer
    • Parallelle computing voor MapReduce: vergelijking HPC vs Hadoop beheer
    • MapReduce clusterbelasting
    • Nodes en Daemons (JobTracker, TaskTracker)
    • MapReduce UI-walkthrough
    • MapReduce configuratie
    • Job configuratie
    • MapReduce optimaliseren
    • Veiligstellen van MR: wat u uw programmeurs moet vertellen
    • Labs: MapReduce-voorbeelden uitvoeren
  • YARN: nieuwe architectuur en nieuwe mogelijkheden
    • YARN ontwerpdoelen en implementatie-architectuur
    • Nieuwe acteurs: ResourceManager, NodeManager, Application Master
    • YARN installeren
    • Jobplanning onder YARN
    • Labs: jobplanning onderzoeken
  • Geavanceerde onderwerpen
    • Hardwaremonitoring
    • Clustermonitoring
    • Servers toevoegen en verwijderen, Hadoop upgraden
    • Backup, herstel en planning voor bedrijfscontinuïteit
    • Oozie job workflows
    • Hadoop hoge beschikbaarheid (HA)
    • Hadoop Federatie
    • Uw cluster beveiligen met Kerberos
    • Labs: monitoring instellen
  • Optionele tracks
    • Cloudera Manager voor clusterbeheer, monitoring en routinetaakjes; installatie, gebruik. In deze track worden alle oefeningen en labs uitgevoerd in de Cloudera distributieomgeving (CDH5)
    • Ambari voor clusterbeheer, monitoring en routinetaakjes; installatie, gebruik. In deze track worden alle oefeningen en labs uitgevoerd binnen de Ambari cluster manager en Hortonworks Data Platform (HDP 2.0)

Vereisten

  • op de hoogte zijn van basis Linux systeembeheer
  • basis scriptingvaardigheden

Kennis van Hadoop en Distributed Computing is niet vereist, maar zal in het cursus worden geïntroduceerd en uitgelegd.

Labomgeving

Zero Install : Er is geen noodzaak om Hadoop-software te installeren op de machines van de studenten! Er wordt een werkende Hadoop-cluster voor de studenten geleverd.

Studenten moeten het volgende hebben

  • een SSH-client (Linux en Mac hebben al ssh-clients, voor Windows is Putty aanbevolen)
  • een browser om toegang te krijgen tot de cluster. We raden de Firefox-browser aan met de FoxyProxy-extensie geïnstalleerd
 21 Uren

Aantal deelnemers


Prijs Per Deelnemer

Getuigenissen (5)

Voorlopige Aankomende Cursussen

Gerelateerde categorieën