Course Outline
Deel 1: Inleiding tot Hadoop
- Hadoop Geschiedenis, Concepten
- Ecosysteem
- Distributies
- Architectuur op hoog niveau
- Hadoop mythen
- Hadoop-uitdagingen
- Hardware / software
- lab : eerste blik op Hadoop
Sectie 2: HDFS
- Ontwerp en architectuur
- concepten (horizontaal schalen, replicatie, datalokalisatie, rackbewustzijn)
- Daemons : Namenode, Secundaire namenode, Data node
- Communicatie / hartslagen
- Integriteit van gegevens
- Lees-/schrijfpad
- Hoge beschikbaarheid (HA) van Namenode, federatie
- labs : Interactie met HDFS
Sectie 3 : Kaart verkleinen
- Concepten en architectuur
- daemons (MRV1) : jobtracker / tasktracker
- Fasen: Driver, Mapper, Shuffle/Sort, Reducer
- Map Reduce Versie 1 en Versie 2 (YARN)
- Interne onderdelen van Map Reduce
- Inleiding tot het programma Map Reduce Java
- labs : Een voorbeeld van een MapReduce-programma uitvoeren
Sectie 4 : Varken
- Varken versus Java-kaart verminderen
- Varkens Job Flow
- varken Latijnse taal
- ETL met varken
- Transformaties en samenvoegingen
- Door de gebruiker gedefinieerde functies (UDF)
- labs : Pig scripts schrijven om data te analyseren
Deel 5: Hive
- Architectuur en design
- Soorten gegevens
- SQL Ondersteuning bij Hive
- Hive tabellen maken en query's uitvoeren
- Partities
- Joins
- Tekstverwerking
- Labs : Diverse labo's over het verwerken van data met Hive
Sectie 6: HBase
- Concepten en architectuur
- hbase versus RDBMS versus cassandra
- HBase Java API
- Tijdreeksgegevens over HBase
- Schema-ontwerp
- laboratoria : Interactie met HBase met behulp van shell; programmeren in HBase Java API ; Oefening voor schemaontwerp
Requirements
- vertrouwd met de programmeertaal Java (de meeste programmeeroefeningen zijn in Java)
- comfortabel in Linux omgeving (kunnen navigeren op de Linux opdrachtregel, bestanden bewerken met vi / nano)
Lab-omgeving
Zero Install: Het is niet nodig om hadoop-software op de computers van studenten te installeren! Er zal een werkend hadoop-cluster voor studenten worden aangeboden.
Studenten hebben het volgende nodig
- een SSH-client (Linux en Mac hebben al ssh-clients, voor Windows wordt Putty aanbevolen)
- een browser om toegang te krijgen tot het cluster. Wij raden de Firefox-browser aan
Getuigenissen (6)
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Cursus - Impala for Business Intelligence
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Cursus - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
Cursus - Administrator Training for Apache Hadoop
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Cursus - Big Data Analytics in Health
The fact that all the data and software was ready to use on an already prepared VM, provided by the trainer in external disks.
vyzVoice
Cursus - Hadoop for Developers and Administrators
practical things of doing, also theory was served good by Ajay