Course Outline
Sectie 1: Data Management in HDFS
- Verschillende gegevensformaten (JSON / Avro / Parquet)
- Compressie schema's
- Gegevens maskeren
- Labs : Analyseren van verschillende dataformaten; Compressie inschakelen
Sectie 2: Geavanceerd varken
- Door de gebruiker gedefinieerde functies
- Inleiding tot varkensbibliotheken (ElephantBird / Data-Fu)
- Complexe gestructureerde gegevens laden met Pig
- Varkens Tuning
- Labs: geavanceerde pig scripting, het ontleden van complexe datatypes
Deel 3 : Gevorderd Hive
- Door de gebruiker gedefinieerde functies
- Gecomprimeerde tabellen
- Hive Prestaties afstemmen
- Labs: het maken van gecomprimeerde tabellen, het evalueren van tabelformaten en configuratie
Sectie 4 : Gevorderd HBase
- Geavanceerde schemamodellering
- Compressie
- Bulksgewijs gegevens opnemen
- Vergelijking van brede tafels en hoge tafels
- HBase en varken
- HBase en Hive
- HBase Prestaties Tuning
- Labs : afstemming HBase; toegang tot HBase-gegevens van Pig & Hive; Phoenix gebruiken voor datamodellering
Requirements
- vertrouwd met de programmeertaal Java (de meeste programmeeroefeningen zijn in Java)
- comfortabel in Linux omgeving (in staat zijn om Linux op de opdrachtregel te navigeren, bestanden te bewerken met vi / nano)
- een praktische kennis van Hadoop.
Lab-omgeving
Zero Install: Het is niet nodig om hadoop-software op de computers van studenten te installeren! Er zal een werkend hadoop-cluster voor studenten worden aangeboden.
Studenten hebben het volgende nodig
- een SSH-client (Linux en Mac hebben al ssh-clients, voor Windows wordt Putty aanbevolen)
- een browser om toegang te krijgen tot het cluster. Wij raden de Firefox-browser aan
Getuigenissen (5)
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Cursus - Impala for Business Intelligence
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Cursus - Big Data Analytics in Health
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Cursus - Data Analysis with Hive/HiveQL
I genuinely enjoyed the many hands-on sessions.
Jacek Pieczątka
Cursus - Administrator Training for Apache Hadoop
The fact that all the data and software was ready to use on an already prepared VM, provided by the trainer in external disks.