Cursusaanbod

Hoofdstuk 1: Inleiding tot Hadoop

  • Hadoop-geschiedenis, concepten
  • ecosysteem
  • distributies
  • hoogniveau-architectuur
  • Hadoop-mythen
  • Hadoop-uitdagingen
  • hardware / software
  • praktijkopdracht : eerste blik op Hadoop

Hoofdstuk 2: HDFS

  • ontwerp en architectuur
  • concepten (horizontale schaling, replïcatie, datalokaliteit, rack-bewustzijn)
  • Diensten : Namenode, Secondary namenode, Data node
  • communicatie / hartslagsignalen
  • gegevensintegriteit
  • lees / schrijf-pad
  • Namenode High Availability (HA), Federatie
  • praktijkopdrachten : Interactie met HDFS

Hoofdstuk 3: Map Reduce

  • concepten en architectuur
  • diensten (MRV1) : jobtracker / tasktracker
  • fases : driver, mapper, shuffle/sort, reducer
  • Map Reduce Versie 1 en Versie 2 (YARN)
  • Interne werking van Map Reduce
  • Inleiding tot Java-MapReduce-programma's
  • praktijkopdrachten : Uitvoeren van een voorbeeld MapReduce-programma

Hoofdstuk 4: Pig

  • Pig versus Java-MapReduce
  • Pig-jobstroom
  • Pig Latin-taal
  • ETL met Pig
  • Transformaties & Joins
  • User defined functions (UDF)
  • praktijkopdrachten : Schrijven van Pig-scripts om gegevens te analyseren

Hoofdstuk 5: Hive

  • architectuur en ontwerp
  • gegevestypen
  • SQL-ondersteuning in Hive
  • Aanmaken van Hive-tabellen en query's uitvoeren
  • partities
  • joins
  • tekstverwerking
  • praktijkopdrachten : Verschillende praktijkopdrachten voor het verwerken van gegevens met Hive

Hoofdstuk 6: HBase

  • concepten en architectuur
  • HBase versus RDBMS versus Cassandra
  • HBase Java API
  • Tijdreeksgegevens in HBase
  • schemadesign
  • praktijkopdrachten : Interactie met HBase via de shell; Programmeren met de HBase Java API; Schemadesign-oefening

Vereisten

  • vertrouwd met de Java-programmeertaal (de meeste programmeeroefeningen zijn in Java)
  • vertrouwd met het Linux-omgeving (moet in staat zijn om te navigeren via de Linux-commandoregel, bestanden te bewerken met vi / nano)

Labomgeving

Nul installatie : Er is geen noodzaak om Hadoop-software op de machines van studenten te installeren! Een functionerende Hadoop-cluster zal voor studenten worden aangeboden.

Studenten hebben het volgende nodig

  • een SSH-client (Linux en Mac hebben al SSH-clients, voor Windows wordt Putty aanbevolen)
  • een browser om toegang te krijgen tot het cluster, Firefox wordt aanbevolen
 28 uren

Aantal deelnemers


Prijs per deelnemer

Getuigenissen (5)

Voorlopige Aankomende Cursussen

Gerelateerde categorieën