Course Outline

Deel 1: Inleiding tot Hadoop

  • Hadoop Geschiedenis, Concepten
  • Ecosysteem
  • Distributies
  • Architectuur op hoog niveau
  • Hadoop mythen
  • Hadoop-uitdagingen
  • Hardware / software
  • lab : eerste blik op Hadoop

Sectie 2: HDFS

  • Ontwerp en architectuur
  • concepten (horizontaal schalen, replicatie, datalokalisatie, rackbewustzijn)
  • Daemons : Namenode, Secundaire namenode,  Data node
  • Communicatie / hartslagen
  • Integriteit van gegevens
  • Lees-/schrijfpad
  • Hoge beschikbaarheid (HA) van Namenode, federatie
  • labs : Interactie met HDFS

Sectie 3 : Kaart verkleinen

  • Concepten en architectuur
  • daemons (MRV1) : jobtracker / tasktracker
  • Fasen: Driver, Mapper, Shuffle/Sort, Reducer
  • Map Reduce Versie 1 en Versie 2 (YARN)
  • Interne onderdelen van Map Reduce
  • Inleiding tot het programma Map Reduce Java
  • labs : Een voorbeeld van een MapReduce-programma uitvoeren

Sectie 4 : Varken

  • Varken versus Java-kaart verminderen
  • Varkens Job Flow
  • varken Latijnse taal
  • ETL met varken
  • Transformaties en samenvoegingen
  • Door de gebruiker gedefinieerde functies (UDF)
  • labs : Pig scripts schrijven om data te analyseren

Deel 5: Hive

  • Architectuur en design
  • Soorten gegevens
  • SQL Ondersteuning bij Hive
  • Hive tabellen maken en query's uitvoeren
  • Partities
  • Joins
  • Tekstverwerking
  • Labs : Diverse labo's over het verwerken van data met Hive

Sectie 6: HBase

  • Concepten en architectuur
  • hbase versus RDBMS versus cassandra
  • HBase Java API
  • Tijdreeksgegevens over HBase
  • Schema-ontwerp
  • laboratoria : Interactie met HBase met behulp van shell;   programmeren in HBase Java API ; Oefening voor schemaontwerp

Requirements

  • vertrouwd met de programmeertaal Java (de meeste programmeeroefeningen zijn in Java)
  • comfortabel in Linux omgeving (kunnen navigeren op de Linux opdrachtregel, bestanden bewerken met vi / nano)

Lab-omgeving

Zero Install: Het is niet nodig om hadoop-software op de computers van studenten te installeren! Er zal een werkend hadoop-cluster voor studenten worden aangeboden.

Studenten hebben het volgende nodig

  • een SSH-client (Linux en Mac hebben al ssh-clients, voor Windows wordt Putty aanbevolen)
  • een browser om toegang te krijgen tot het cluster. Wij raden de Firefox-browser aan
 28 Hours

Number of participants



Price per participant

Getuigenissen (5)

Related Courses

Hortonworks Data Platform (HDP) for Administrators

21 Hours

Apache Ambari: Efficiently Manage Hadoop Clusters

21 Hours

Impala for Business Intelligence

21 Hours

Data Analysis with Hive/HiveQL

7 Hours

Administrator Training for Apache Hadoop

35 Hours

Big Data Analytics in Health

21 Hours

Datameer for Data Analysts

14 Hours

Hadoop Administration

21 Hours

Hadoop For Administrators

21 Hours

Advanced Hadoop for Developers

21 Hours

Hadoop for Developers and Administrators

21 Hours

Hadoop for Project Managers

14 Hours

Hadoop Administration on MapR

28 Hours

Hadoop with Python

28 Hours

Hadoop and Spark for Administrators

35 Hours

Related Categories