Home
big data opleiding
apache spark opleiding

Apache Spark in the Cloud Training Cursus

Apache Spark leercurve van Apache Spark neemt in het begin langzaam toe, het kost veel inspanning om het eerste rendement te behalen. Deze cursus is bedoeld om door het eerste moeilijke gedeelte te springen. Na het volgen van deze cursus zullen de deelnemers de basisprincipes van Apache Spark begrijpen, ze zullen RDD duidelijk onderscheiden van DataFrame, ze zullen Python en Scala API leren kennen, ze zullen uitvoerders en taken begrijpen, etc. Ook volgens de best practices richt deze cursus zich sterk op cloud-implementatie, Databricks en AWS. De studenten zullen ook de verschillen begrijpen tussen AWS EMR en AWS Glue, een van de nieuwste Spark-services van AWS.

PUBLIEK:

Data Engineer, DevOps , Data Scientist

Thank you for sending your enquiry! One of our team members will contact you shortly.

Thank you for sending your booking! One of our team members will contact you shortly.

Course Outline

Introductie:

Apache Spark in Hadoop Ecosysteem
Korte intro voor python, scala

Basis (theorie):

Architectuur
RDD
Transformatie en acties
Fase, taak, afhankelijkheden

Met behulp van Databricks omgeving begrijp je de basis (hands-on workshop):

Oefeningen met behulp van RDD API
Basisfuncties voor actie en transformatie
PairRDD
Verbinden
Strategieën voor caching
Oefeningen met behulp van de DataFrame-API
VonkSQL
DataFrame: selecteren, filteren, groeperen, sorteren
UDF (door de gebruiker gedefinieerde functie)
Kijken naar DataSet API
Streaming

Met behulp van AWS-omgeving inzicht in de implementatie (hands-on workshop):

Basisprincipes van AWS-lijm
Begrijp de verschillen tussen AWS EMR en AWS Glue
Voorbeeldtaken in beide omgevingen
Begrijp de voor- en nadelen

Extra:

Inleiding tot Apache Airflow orkestratie

Requirements

Programmeervaardigheden (bij voorkeur Python, Scala)

SQL basis

21 Hours

Number of participants

Online

Classroom

Select Location

Please select a Venue

Price per participant

Open Training Courses require 5+ participants.

Apache Spark in the Cloud Training Cursus - Booking

Full name *

Phone *

Email *

Job Title

Company Name

Address 1 *

Address 2

City *

State / Province

Country *

Postcode *

Tax ID

Start Date

End Date

Dates are subject to availability and take place between 09:30 and 16:30.

Payment Method *

Bank Transfer (Invoice, PO)

Debit / Credit Card

Additional Information

Comments

Allow Publishing Certificate

If you check this box the participants will receive an option to publish their course certificate on the NobleProg Certified Professional Catalogue.

Algemene Voorwaarden *

I am an authorised representative of the above named client and I wish to book the above courses or services in accordance with NobleProg Terms and Conditions and Privacy Policy.

Inform me about discounts and promotions

Please read our Privacy Policy to find out how we use your data

Apache Spark in the Cloud Training Cursus - Enquiry

Full name *

Phone *

Preferred

Email *

Preferred

Company Name

Company Address

Preferred

Number of participants

Date

How do you want to take the course?

Client Premises

Online

Classroom

Course Name

Duration, hours

Suitable Time

Preferred language

Suggested Venue Address

Comments

Inform me about discounts and promotions

Please read our Privacy Policy to find out how we use your data

Apache Spark in the Cloud - Consultancy Enquiry

Full name *

Phone *

Email *

Company Name

Consultancy Subject *

Consultancy Goal

Consultancy Duration

Number of Consultants

Suitable Date

Who will the consultant work with?

Consultancy Urgency *

Course Name

Duration, hours

Comments

Inform me about discounts and promotions

Please read our Privacy Policy to find out how we use your data

Getuigenissen (2)

Having hands on session / assignments

Poornima Chenthamarakshan - Intelligent Medical Objects

Cursus - Apache Spark in the Cloud

1. Right balance between high level concepts and technical details. 2. Andras is very knowledgeable about his teaching. 3. Exercise

Steven Wu - Intelligent Medical Objects

Cursus - Apache Spark in the Cloud

Related Courses

Python and Spark for Big Data (PySpark)

21 Hours

In deze door een instructeur geleide, live training leren deelnemers hoe ze Python en Spark samen kunnen gebruiken om big data te analyseren terwijl ze aan praktische oefeningen werken.

Aan het einde van deze training kunnen deelnemers:

Leer hoe u Spark met Python kunt gebruiken om Big Data te analyseren.
Werk aan oefeningen die praktijkgevallen nabootsen.
Gebruik verschillende tools en technieken voor big data-analyse met PySpark.

Introduction to Graph Computing

28 Hours

In deze door een instructeur geleide, live training leren deelnemers over het technologieaanbod en de implementatiebenaderingen voor het verwerken van grafiekgegevens. Het doel is om objecten uit de echte wereld, hun kenmerken en relaties te identificeren, deze relaties vervolgens te modelleren en ze als gegevens te verwerken met behulp van een Graph Computing (ook bekend als Graph Analytics) aanpak. We beginnen met een breed overzicht en beperken ons tot specifieke tools terwijl we een reeks casestudies, praktische oefeningen en live implementaties doorlopen.

Aan het einde van deze training kunnen deelnemers:

Begrijp hoe grafiekgegevens worden bewaard en doorlopen.
Selecteer het beste raamwerk voor een bepaalde taak (van grafische databases tot raamwerken voor batchverwerking).
Implementeer Hadoop, Spark, GraphX en Pregel om graph computing parallel uit te voeren op veel machines.
Bekijk big data-problemen uit de echte wereld in termen van grafieken, processen en traversals.

Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP

21 Hours

Formaat van de cursus

Interactieve lezing en discussie.
Veel oefeningen en oefeningen.
Praktische implementatie in een live-labomgeving.

Opties voor cursusaanpassing

Als u een training op maat voor deze cursus wilt aanvragen, kunt u contact met ons opnemen om een afspraak te maken.

Apache Spark MLlib

35 Hours

MLlib is Spark's machine learning (ML) bibliotheek. Het doel is om praktische machine learning schaalbaar en eenvoudig te maken. Het bestaat uit algemene leeralgoritmen en hulpprogramma's, waaronder classificatie, regressie, clustering, collaboratieve filtering, vermindering van de dimensionaliteit, evenals optimalisatieprimitieven op een lager niveau en pijplijn-API's op een hoger niveau.

Het is verdeeld in twee pakketten:

spark.mllib bevat de originele API gebouwd bovenop RDD's.
spark.ml biedt een API op een hoger niveau gebouwd bovenop DataFrames voor het construeren van ML-pijpleidingen.

Publiek

Deze cursus is bedoeld voor ingenieurs en ontwikkelaars die een ingebouwde machinebibliotheek voor Apache Spark

Big Data Analytics in Health

21 Hours

Big data-analyse omvat het proces van het onderzoeken van grote hoeveelheden gevarieerde gegevenssets om correlaties, verborgen patronen en andere nuttige inzichten te ontdekken.

De gezondheidsindustrie heeft enorme hoeveelheden complexe heterogene medische en klinische gegevens. Het toepassen van big data-analyses op gezondheidsgegevens biedt een enorm potentieel voor het verkrijgen van inzichten voor het verbeteren van de gezondheidszorg. De enorme omvang van deze datasets vormt echter grote uitdagingen bij analyses en praktische toepassingen in een klinische omgeving.

In deze door een instructeur geleide, live training (op afstand), leren deelnemers hoe ze big data-analyses in gezondheid kunnen uitvoeren terwijl ze een reeks praktische live-laboefeningen doorlopen.

Aan het einde van deze training kunnen deelnemers:

Installeer en configureer big data-analysehulpmiddelen zoals Hadoop MapReduce en Spark
Begrijp de kenmerken van medische gegevens
Pas big data-technieken toe om met medische gegevens om te gaan
Bestudeer big data-systemen en algoritmen in het kader van gezondheidstoepassingen

Publiek

ontwikkelaars
Data Scientists

Indeling van de cursus

Deelcollege, deelbespreking, oefeningen en zware praktijkoefeningen.

Notitie

Neem contact met ons op om een aangepaste training voor deze cursus aan te vragen.

Hadoop and Spark for Administrators

35 Hours

Deze instructeur-geleide, live training in België (op locatie of op afstand) is gericht op systeembeheerders die willen leren hoe ze clusters binnen hun organisatie kunnen opzetten, implementeren en beheren.

Aan het einde van deze training kunnen deelnemers:

Installeer en configureer Apache Hadoop.
Begrijp de vier belangrijkste componenten in het Hadoop-ecosysteem: HDFS, MapReduce, YARN en Hadoop Common.
Gebruik Hadoop Distributed File System (HDFS) om een cluster te schalen naar honderden of duizenden knooppunten.
Stel HDFS in om te functioneren als opslagengine voor on-premise Spark-implementaties.
Stel Spark in voor toegang tot alternatieve opslagoplossingen zoals Amazon S3 en NoSQL databasesystemen zoals Redis, Elasticsearch, Couchbase, Aerospike, enz.
Voer administratieve taken uit zoals het inrichten, beheren, monitoren en beveiligen van een Apache Hadoop-cluster.

Hortonworks Data Platform (HDP) for Administrators

21 Hours

Deze door een instructeur geleide, live training in België (op locatie of op afstand) introduceert Hortonworks Data Platform (HDP) en leidt deelnemers door de implementatie van de Spark + Hadoop-oplossing.

Aan het einde van deze training kunnen deelnemers:

Gebruik Hortonworks om Hadoop betrouwbaar op grote schaal uit te voeren. Verenig de beveiligings-, governance- en operationele mogelijkheden van Hadoop met de flexibele analytische workflows van Spark. Gebruik Hortonworks om elk onderdeel van een Spark-project te onderzoeken, valideren, certificeren en ondersteunen. Verwerk verschillende soorten gegevens, waaronder gestructureerd, ongestructureerd, in beweging en in rust.

A Practical Introduction to Stream Processing

21 Hours

In deze door een instructeur geleide, live training in België (op locatie of op afstand), leren deelnemers hoe ze verschillende Stream Processing raamwerken kunnen opzetten en integreren met bestaande big data-opslagsystemen en gerelateerde softwareapplicaties en microservices.

Aan het einde van deze training kunnen deelnemers:

Installeer en configureer verschillende Stream Processing frameworks, zoals Spark Streaming en Kafka Streaming.
Begrijp en selecteer het meest geschikte raamwerk voor de taak.
Verwerken van gegevens continu, gelijktijdig en record voor record.
Integreer Stream Processing oplossingen met bestaande databases, datawarehouses, datameren, enz.
Integreer de meest geschikte bibliotheek voor streamverwerking met bedrijfsapplicaties en microservices.

Magellan: Geospatial Analytics on Spark

14 Hours

Magellan is een open-source gedistribueerde uitvoeringssysteem voor geospatiale analyse van big data. Geïmplementeerd boven Apache Spark, breidt het Spark SQL uit en biedt een relatieve abstractie voor geospatiale analyses.

Deze instructeur geleide, live training introduceert de concepten en benaderingen voor de implementatie van geospatiale analyses en wandelt deelnemers door middel van de creatie van een predictieve analyse toepassing met behulp van Magellan op Spark.

Aan het einde van deze training zullen de deelnemers in staat zijn:

Efficiënt zoeken, parsen en deelgenomen geospatiale dataset op schaal
Implementatie van geospatiale gegevens in business intelligence en predictive analytics toepassingen
Gebruik ruimtecontext om de capaciteiten van mobiele apparaten, sensoren, logs en draagbare apparaten uit te breiden

Format van de cursus

Interactieve lezingen en discussie.
Veel oefeningen en oefeningen.
Hand-on implementatie in een live-lab-omgeving.

Cursus aanpassingsopties

Om een aangepaste training voor deze cursus te vragen, neem dan contact met ons op om te organiseren.

Apache Spark for .NET Developers

21 Hours

Deze door een instructeur geleide, live training (op locatie of op afstand) is gericht op ontwikkelaars die big data-analyse willen uitvoeren met behulp van Apache Spark in hun .NET-applicaties.

Aan het einde van deze training kunnen deelnemers:

Installeer en configureer Apache Spark.
Begrijp hoe .NET Spark API's implementeert, zodat ze toegankelijk zijn vanuit een .NET-applicatie.
Ontwikkel applicaties voor gegevensverwerking met behulp van C# of F#, die datasets kunnen verwerken waarvan de grootte wordt gemeten in terabytes en pedabytes.
Ontwikkel machine learning-functies voor een .NET-toepassing met behulp van Apache Spark-mogelijkheden.
Voer verkennende analyses uit met behulp van SQL queries op big datasets.

SMACK Stack for Data Science

14 Hours

Deze door een instructeur geleide, live training (op locatie of op afstand) is gericht op datawetenschappers die de SMACK-stack willen gebruiken om dataverwerkingsplatforms voor big data-oplossingen te bouwen.

Aan het einde van deze training kunnen deelnemers:

Implementeer een datapijplijnarchitectuur voor het verwerken van big data.
Ontwikkel een clusterinfrastructuur met Apache Mesos en Docker.
Analyseer gegevens met Spark en Scala.
Beheer ongestructureerde gegevens met Apache Cassandra.

Apache Spark Fundamentals

21 Hours

Deze instructeur-geleide, live training in België (op locatie of op afstand) is gericht op ingenieurs die een Apache Spark systeem willen opzetten en implementeren voor het verwerken van zeer grote hoeveelheden gegevens.

Aan het einde van deze training kunnen deelnemers:

Installeer en configureer Apache Spark.
Verwerk en analyseer snel zeer grote datasets.
Begrijp het verschil tussen Apache Spark en Hadoop MapReduce en wanneer u welke moet gebruiken.
Integreer Apache Spark met andere machine learning-tools.

Administration of Apache Spark

35 Hours

Deze live training onder leiding van een instructeur in België (online of op locatie) is bedoeld voor beginnende tot gemiddelde systeembeheerders die Spark-clusters willen implementeren, onderhouden en optimaliseren.

Aan het einde van deze training zijn de deelnemers in staat om:

Installeer en configureer Apache Spark in verschillende omgevingen.
Clusterresources beheren en Spark-toepassingen bewaken.
Optimaliseer de prestaties van Spark-clusters.
Implementeer beveiligingsmaatregelen en zorg voor een hoge beschikbaarheid.
Veelvoorkomende problemen met Spark opsporen en oplossen.

Spark for Developers

21 Hours

DOELSTELLING:

Deze cursus introduceert Apache Spark . De studenten leren hoe Spark past in het Big Data ecosysteem en hoe Spark gebruikt kan worden voor data-analyse. De cursus behandelt Spark shell voor interactieve gegevensanalyse, Spark internals, Spark API's, Spark SQL , Spark streaming en machine learning en graphX.

PUBLIEK :

Ontwikkelaars / gegevensanalisten

Scaling Data Pipelines with Spark NLP

14 Hours

Deze door een instructeur geleide, live training (op locatie of op afstand) is gericht op datawetenschappers en ontwikkelaars die Spark NLP, gebouwd bovenop Apache Spark, willen gebruiken om modellen voor tekstverwerking in natuurlijke taal te ontwikkelen, implementeren en schalen en pijpleidingen.

Aan het einde van deze training kunnen deelnemers:

Zet de noodzakelijke ontwikkelomgeving op om NLP-pijplijnen te bouwen met Spark NLP.
Begrijp de functies, architectuur en voordelen van het gebruik van Spark NLP.
Gebruik de vooraf getrainde modellen die beschikbaar zijn in Spark NLP om tekstverwerking te implementeren.
Leer hoe u modellen bouwt, traint en schaalt Spark NLP voor productieprojecten.
Pas classificatie, gevolgtrekkingen en sentimentanalyse toe op praktijkvoorbeelden (klinische gegevens, inzichten in klantgedrag, enz.).

Apache Spark in the Cloud Training Cursus

Course Outline

Requirements

Getuigenissen (2)

Poornima Chenthamarakshan - Intelligent Medical Objects

Cursus - Apache Spark in the Cloud

Steven Wu - Intelligent Medical Objects

Cursus - Apache Spark in the Cloud

Related Courses

Python and Spark for Big Data (PySpark)

Introduction to Graph Computing

Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP

Apache Spark MLlib

Big Data Analytics in Health

Hadoop and Spark for Administrators

Hortonworks Data Platform (HDP) for Administrators

A Practical Introduction to Stream Processing

Magellan: Geospatial Analytics on Spark

Apache Spark for .NET Developers

SMACK Stack for Data Science

Apache Spark Fundamentals

Administration of Apache Spark

Spark for Developers

Scaling Data Pipelines with Spark NLP

Related Categories

This site in other countries/regions

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites