Course Outline

Sectie 1: Data Management in HDFS

  • Verschillende gegevensformaten (JSON / Avro / Parquet)
  • Compressie schema's
  • Gegevens maskeren
  • Labs : Analyseren van verschillende dataformaten;  Compressie inschakelen

Sectie 2: Geavanceerd varken

  • Door de gebruiker gedefinieerde functies
  • Inleiding tot varkensbibliotheken (ElephantBird / Data-Fu)
  • Complexe gestructureerde gegevens laden met Pig
  • Varkens Tuning
  • Labs: geavanceerde pig scripting, het ontleden van complexe datatypes

Deel 3 : Gevorderd Hive

  • Door de gebruiker gedefinieerde functies
  • Gecomprimeerde tabellen
  • Hive Prestaties afstemmen
  • Labs: het maken van gecomprimeerde tabellen, het evalueren van tabelformaten en configuratie

Sectie 4 : Gevorderd HBase

  • Geavanceerde schemamodellering
  • Compressie
  • Bulksgewijs gegevens opnemen
  • Vergelijking van brede tafels en hoge tafels
  • HBase en varken
  • HBase en Hive
  • HBase Prestaties Tuning
  • Labs : afstemming HBase; toegang tot HBase-gegevens van Pig & Hive; Phoenix gebruiken voor datamodellering

Requirements

  • vertrouwd met de programmeertaal Java (de meeste programmeeroefeningen zijn in Java)
  • comfortabel in Linux omgeving (in staat zijn om Linux op de opdrachtregel te navigeren, bestanden te bewerken met vi / nano)
  • een praktische kennis van Hadoop.

Lab-omgeving

Zero Install: Het is niet nodig om hadoop-software op de computers van studenten te installeren! Er zal een werkend hadoop-cluster voor studenten worden aangeboden.

Studenten hebben het volgende nodig

  • een SSH-client (Linux en Mac hebben al ssh-clients, voor Windows wordt Putty aanbevolen)
  • een browser om toegang te krijgen tot het cluster. Wij raden de Firefox-browser aan
 21 Hours

Number of participants



Price per participant

Getuigenissen (5)

Related Courses

Hortonworks Data Platform (HDP) for Administrators

21 Hours

Apache Ambari: Efficiently Manage Hadoop Clusters

21 Hours

Impala for Business Intelligence

21 Hours

Data Analysis with Hive/HiveQL

7 Hours

Administrator Training for Apache Hadoop

35 Hours

Big Data Analytics in Health

21 Hours

Datameer for Data Analysts

14 Hours

Hadoop Administration

21 Hours

Hadoop For Administrators

21 Hours

Hadoop for Developers (4 days)

28 Hours

Hadoop for Developers and Administrators

21 Hours

Hadoop for Project Managers

14 Hours

Hadoop Administration on MapR

28 Hours

Hadoop with Python

28 Hours

Hadoop and Spark for Administrators

35 Hours

Related Categories