Course Outline

    Scala primer Een korte introductie tot Scala Labs: Scala Spark Basics leren kennen Achtergrond en geschiedenis Spark en Hadoop Spark-concepten en -architectuur Spark eco-systeem (core, spark sql, mlib, streaming) Labs: Spark installeren en uitvoeren Eerste blik op Spark Running Spark in lokale modus Spark web UI Spark shell Dataset analyseren – deel 1 Inspecteren van RDDs Labs: Spark shell verkenning RDDs RDDs concepten Partities RDD Bewerkingen / transformaties RDD typen Sleutel-Waarde paar RDDs MapReduce op RDD Caching en persistentie Labs: RDDs maken en inspecteren; Caching RDD's Spark API-programmering Inleiding tot Spark API / RDD API Het eerste programma indienen bij Spark Debugging / loggen Configuratie-eigenschappen Labs: Programmeren in Spark API, taken indienen Spark SQL SQL ondersteuning in Spark Dataframes Tabellen definiëren en datasets importeren Gegevens opvragen frames met behulp van SQL Opslagformaten: JSON / Parquet Labs: dataframes maken en opvragen; gegevensformaten evalueren MLlib MLlib intro MLlib-algoritmen Labs: MLib-applicaties schrijven GraphX GraphX-bibliotheekoverzicht GraphX API's Labs: grafiekgegevens verwerken met Spark Spark Streaming Streaming-overzicht Streamingplatforms evalueren Streamingbewerkingen Schuifvensterbewerkingen Labs: Spark-streamingtoepassingen schrijven Spark en Hadoop Hadoop Intro ( HDFS / YARN) Hadoop + Spark-architectuur Spark uitvoeren op Hadoop YARN HDFS-bestanden verwerken met Spark Spark-prestaties en afstemming Broadcast-variabelen Accumulators Geheugenbeheer en caching Spark-bewerkingen Spark in productie implementeren Voorbeeldimplementatiesjablonen Configuraties Controle Problemen oplossen

Requirements

VOORWAARDEN

bekendheid met de taal Java / Scala / Python (onze labs in Scala en Python) basiskennis van de Linux-ontwikkelomgeving (opdrachtregelnavigatie / bestanden bewerken met VI of nano)

 21 Hours

Number of participants



Price per participant

Getuigenissen (3)

Related Courses

Python and Spark for Big Data (PySpark)

21 Hours

Introduction to Graph Computing

28 Hours

Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP

21 Hours

Apache Spark MLlib

35 Hours

Big Data Analytics in Health

21 Hours

Hadoop and Spark for Administrators

35 Hours

Hortonworks Data Platform (HDP) for Administrators

21 Hours

A Practical Introduction to Stream Processing

21 Hours

Magellan: Geospatial Analytics on Spark

14 Hours

Apache Spark for .NET Developers

21 Hours

SMACK Stack for Data Science

14 Hours

Apache Spark Fundamentals

21 Hours

Administration of Apache Spark

35 Hours

Apache Spark in the Cloud

21 Hours

Scaling Data Pipelines with Spark NLP

14 Hours

Related Categories

1