Course Outline

Invoering

De architectuur en sleutelconcepten van Hadoop begrijpen

Inzicht in het Hadoop gedistribueerde bestandssysteem (HDFS)

    Overzicht van HDFS en zijn architectonisch ontwerp Interactie met HDFS Basisbestandsbewerkingen uitvoeren op HDFS Overzicht van HDFS-opdrachtreferentie Overzicht van Snakebite Snakebite installeren De Snakebite-clientbibliotheek gebruiken De CLI-client gebruiken

Het MapReduce-programmeermodel leren met Python

    Overzicht van het MapReduce-model Programming Inzicht in de gegevensstroom in het MapReduce-framework Map Shuffle en Sort Reduce
Het streaminghulpprogramma Hadoop gebruiken Begrijpen hoe het streaminghulpprogramma Hadoop werkt
  • Demo: implementatie van de WordCount-applicatie op Python
  • De mrjob-bibliotheek gebruiken Overzicht van mrjob
  • Mrjob installeren
  • Demo: Implementatie van het Wordtelalgoritme met behulp van mrjob
  • Begrijpen hoe een MapReduce-taak geschreven met de mrjob-bibliotheek werkt
  • Een MapReduce-applicatie uitvoeren met mrjob
  • Praktisch: topsalarissen berekenen met mrjob
  • Varken leren met Python
  • Overzicht van Pig-demo: Het Wordtelalgoritme in Pig implementeren Pig-scripts en Pig-instructies configureren en uitvoeren De Pig-uitvoeringsmodi gebruiken De interactieve Pig-modus gebruiken De Pic Batch-modus gebruiken
  • De basisconcepten van de varkenslatijnse taal begrijpen met behulp van uitspraken

      Data laden
    Gegevens transformeren
  • Gegevens bewaren
  • De functionaliteit van Pig uitbreiden met Python UDF's Een Python UDF-bestand registreren
  • Demo: een eenvoudige Python UDF
  • Demo: String-manipulatie met behulp van Python UDF
  • Praktisch: de 10 meest recente films berekenen met behulp van Python UDF
  • Spark en PySpark gebruiken
  • Overzicht van Spark-demo: Implementatie van het WordCount-algoritme in PySpark Overzicht van PySpark Een interactieve shell gebruiken Zelfstandige applicaties implementeren
  • Werken met veerkrachtige gedistribueerde datasets (RDD's) RDD's maken op basis van een Python verzameling
  • RDD's maken van bestanden
  • Implementatie van RDD-transformaties

      Implementatie van RDD-acties
    Praktisch: een tekstprogramma Search voor filmtitels implementeren met PySpark
  • Workflow beheren met Python
  • Overzicht van Apache Oozie en Luigi Luigi installeren Luigi-werkstroomconcepten begrijpen Taken Doelen Parameters
  • Demo: een workflow onderzoeken die het WordCount-algoritme implementeert
  • Werken met Hadoop workflows die MapReduce- en Pig-taken besturen met behulp van Luigi's configuratiebestanden
  • Werken met MapReduce in Luigi
  • Werken met Varken in Luigi
  • Samenvatting en conclusie

    Requirements

    • Ervaring met Python programmeren
    • Basiskennis van Hadoop
     28 Hours

    Number of participants



    Price per participant

    Getuigenissen (5)

    Related Courses

    Hortonworks Data Platform (HDP) for Administrators

    21 Hours

    Apache Ambari: Efficiently Manage Hadoop Clusters

    21 Hours

    Impala for Business Intelligence

    21 Hours

    Data Analysis with Hive/HiveQL

    7 Hours

    Administrator Training for Apache Hadoop

    35 Hours

    Big Data Analytics in Health

    21 Hours

    Datameer for Data Analysts

    14 Hours

    Hadoop Administration

    21 Hours

    Hadoop For Administrators

    21 Hours

    Hadoop for Developers (4 days)

    28 Hours

    Advanced Hadoop for Developers

    21 Hours

    Hadoop for Developers and Administrators

    21 Hours

    Hadoop for Project Managers

    14 Hours

    Hadoop Administration on MapR

    28 Hours

    Hadoop and Spark for Administrators

    35 Hours

    Related Categories