Cursusaanbod

Sectie 1: Inleiding tot Hadoop

  • Hadoop geschiedenis, concepten
  • ecosysteem
  • distributies
  • hoog niveau architectuur
  • Hadoop mythen
  • Hadoop uitdagingen
  • hardware/software
  • lab : eerste kijkje bij Hadoop

Sectie 2: HDFS

  • Ontwerp en architectuur
  • concepten (horizontale schaling, replicatie, data lokaliteit, rack bewustzijn)
  • Daemons : Namenode, Secondary namenode, Data node
  • communicatie / hartstochten
  • data integriteit
  • lezen / schrijven pad
  • Namenode High Availability (HA), Federatie
  • labs : Interactie met HDFS

Sectie 3: Map Reduce

  • concepten en architectuur
  • daemons (MRV1) : jobtracker / tasktracker
  • fasen : driver, mapper, shuffle/sort, reducer
  • Map Reduce Versie 1 en Versie 2 (YARN)
  • internals van Map Reduce
  • Inleiding tot Java Map Reduce programma
  • labs : Uitvoeren van een voorbeeld MapReduce programma

Sectie 4: Pig

  • pig vs java map reduce
  • pig job flow
  • pig latin taal
  • ETL met Pig
  • Transformaties & Joins
  • Gebruikersgedefinieerde functies (UDF)
  • labs : schrijven van Pig scripts voor data analyse

Sectie 5: Hive

  • architectuur en ontwerp
  • datatypes
  • SQL ondersteuning in Hive
  • Aanmaken van Hive tabellen en query's
  • partities
  • joins
  • tekstverwerking
  • labs : diverse labs over data verwerking met Hive

Sectie 6: HBase

  • concepten en architectuur
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • tijdreeksen data op HBase
  • schema ontwerp
  • labs : interactie met HBase met behulp van shell;   programmeren in HBase Java API ; Schema ontwerp oefening

Vereisten

  • Vertrouwd met Java programmeertaal (meeste programmeeroefeningen zijn in java)
  • Vertrouwd met Linux omgeving (in staat om te navigeren in de Linux opdrachtregel, bestanden bewerken met vi / nano)

Labomgeving

Zero Install: Er is geen noodzaak om Hadoop software te installeren op de machines van de studenten! Er wordt een werkende Hadoop cluster voor studenten beschikbaar gesteld.

Studenten hebben de volgende nodig

  • een SSH-client (Linux en Mac hebben al ssh-clients, voor Windows is Putty aanbevolen)
  • een browser om toegang te krijgen tot de cluster, Firefox aanbevolen
 28 Uren

Aantal deelnemers


Prijs Per Deelnemer

Getuigenissen (5)

Voorlopige Aankomende Cursussen

Gerelateerde categorieën