Course Outline
Deel 1: Inleiding tot Hadoop
- Hadoop Geschiedenis, Concepten
- Ecosysteem
- Distributies
- Architectuur op hoog niveau
- Hadoop mythen
- Hadoop-uitdagingen
- Hardware / software
- lab : eerste blik op Hadoop
Sectie 2: HDFS
- Ontwerp en architectuur
- concepten (horizontaal schalen, replicatie, datalokalisatie, rackbewustzijn)
- Daemons : Namenode, Secundaire namenode, Data node
- Communicatie / hartslagen
- Integriteit van gegevens
- Lees-/schrijfpad
- Hoge beschikbaarheid (HA) van Namenode, federatie
- labs : Interactie met HDFS
Sectie 3 : Kaart verkleinen
- Concepten en architectuur
- daemons (MRV1) : jobtracker / tasktracker
- Fasen: Driver, Mapper, Shuffle/Sort, Reducer
- Map Reduce Versie 1 en Versie 2 (YARN)
- Interne onderdelen van Map Reduce
- Inleiding tot het programma Map Reduce Java
- labs : Een voorbeeld van een MapReduce-programma uitvoeren
Sectie 4 : Varken
- Varken versus Java-kaart verminderen
- Varkens Job Flow
- varken Latijnse taal
- ETL met varken
- Transformaties en samenvoegingen
- Door de gebruiker gedefinieerde functies (UDF)
- labs : Pig scripts schrijven om data te analyseren
Deel 5: Hive
- Architectuur en design
- Soorten gegevens
- SQL Ondersteuning bij Hive
- Hive tabellen maken en query's uitvoeren
- Partities
- Joins
- Tekstverwerking
- Labs : Diverse labo's over het verwerken van data met Hive
Sectie 6: HBase
- Concepten en architectuur
- hbase versus RDBMS versus cassandra
- HBase Java API
- Tijdreeksgegevens over HBase
- Schema-ontwerp
- laboratoria : Interactie met HBase met behulp van shell; programmeren in HBase Java API ; Oefening voor schemaontwerp
Requirements
- vertrouwd met de programmeertaal Java (de meeste programmeeroefeningen zijn in Java)
- comfortabel in Linux omgeving (kunnen navigeren op de Linux opdrachtregel, bestanden bewerken met vi / nano)
Lab-omgeving
Zero Install: Het is niet nodig om hadoop-software op de computers van studenten te installeren! Er zal een werkend hadoop-cluster voor studenten worden aangeboden.
Studenten hebben het volgende nodig
- een SSH-client (Linux en Mac hebben al ssh-clients, voor Windows wordt Putty aanbevolen)
- een browser om toegang te krijgen tot het cluster. Wij raden de Firefox-browser aan
Getuigenissen (5)
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Cursus - Impala for Business Intelligence
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Cursus - Big Data Analytics in Health
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Cursus - Data Analysis with Hive/HiveQL
I genuinely enjoyed the many hands-on sessions.
Jacek Pieczątka
Cursus - Administrator Training for Apache Hadoop
The fact that all the data and software was ready to use on an already prepared VM, provided by the trainer in external disks.