Gegevensstreaming en real time gegevensverwerking Training Cursus
Cursusoverzicht
Deze cursus biedt een praktische en gestructureerde introductie in het bouwen van real time gegevensstreaming-systemen. De nadruk ligt op kernconcepten, architectuurpatronen en industriële tools die worden gebruikt om continue gegevens op grote schaal te verwerken. Deelnemers leren hoe ze streaming-pijplijnen ontwerpen, implementeren en optimaliseren met behulp van moderne frameworks. De cursus loopt van fundamentele ideeën naar praktische toepassingen, waardoor deelnemers zelfverzekerd productieklaar real time oplossingen kunnen bouwen.
Vorm van de training
• Trainingsessies onder leiding van een instructeur met begeleidende uitleg
• Conceptuele doorloop met voorbeelden uit de praktijk
• Praktische demonstraties en programmeeroefeningen
• Geleidelijk opgebouwde labs die aansluiten bij de dagelijkse onderwerpen
• Interactieve discussies en vragen en antwoorden
Doelstellingen van de cursus
• Begrijpen van de concepten van real time gegevensstreaming en systeemarchitectuur
• Verschillen begrijpen tussen batchverwerking en streaming-gegevensverwerkingsmodellen
• Schaalbare en fouttolerante streaming-pijplijnen ontwerpen
• Werken met gedistribueerde streaming-tools en frameworks
• Toepassen van event-time processing, windowing en stateful operaties
Echt tijd gegevensoplossingen bouwen en optimaliseren voor bedrijfsdoelstellingen
Cursusaanbod
Cursusprogramma Dag 1
• Introductie tot concepten van gegevensstreaming
• Grondslagen van batch- versus real time-verwerking
• Basisprincipes van gebeurtenisgestuurde architectuur
• Veelvoorkomende use cases in de industrie
• Overzicht van het streaming-ecosysteem
Dag 2
• Architectuurontwerppatronen voor streaming
• Grondslagen van gedistribueerde boodschappsysteem
• Producers en consumers
• Topics, partitions en gegevensstroom
• Strategieën voor gegevensinbreng
Dag 3
• Concepten en frameworks voor stream processing
• Event-time versus processing-time
• Windowing-technieken en use cases
• Stateful stream processing
• Grondslagen van fouttolerantie en checkpointing
Dag 4
• Gegevenstransformatie in streaming-pijplijnen
• ETL en ELT in real time systemen
• Schema-beheer en evolutie
• Stream joins en verrijking
• Introductie tot cloudgebaseerde streamingdiensten
Dag 5
• Monitoring en observabiliteit in streaming-systemen
• Grondslagen van beveiliging en toegangsbeheer
• Prestatievertraging en optimalisatie
• Ontwerpevaluatie van end-to-end pijplijnen
• Real world use cases, zoals fraude detectie en IoT verwerking
Voor open trainingen is een minimum aantal van 5 deelnemers vereist
Gegevensstreaming en real time gegevensverwerking Training Cursus - Boeking
Gegevensstreaming en real time gegevensverwerking Training Cursus - Navraag
Gegevensstreaming en real time gegevensverwerking - Consultancyaanvraag
Getuigenissen (1)
Praktijkopdrachten. De cursus had eigenlijk vijf dagen moeten duren, maar de drie dagen hebben al veel van mijn vragen beantwoord die ik had na het werken met NiFi.
James - BHG Financial
Cursus - Apache NiFi for Administrators
Automatisch vertaald
Voorlopige Aankomende Cursussen
Gerelateerde cursussen
Beheerderstraining voor Apache Hadoop
35 UrenDoelgroep:
Deze cursus is bedoeld voor IT-specialisten die op zoek zijn naar een oplossing om grote datasets op te slaan en te verwerken in een gedistribueerde systeemomgeving.
Goal:
Diepgaande kennis van Hadoop clusteradministratie.
Big Data-analyse met Google Colab en Apache Spark
14 UrenDeze door een instructeur geleide live training (online of op locatie) is bedoeld voor datascientists en ingenieurs op intermediair niveau die Google Colab en Apache Spark willen gebruiken voor big data verwerking en analyse.
Aan het einde van deze training kunnen deelnemers:
- Een big data omgeving instellen met behulp van Google Colab en Spark.
- Grote datasets efficiënt verwerken en analyseren met Apache Spark.
- Big data visualiseren in een samenwerkingsomgeving.
- Apache Spark integreren met cloudgebaseerde hulpmiddelen.
Big Data Analytics in de Gezondheidszorg
21 UrenBig data analytics betreft het proces om grote hoeveelheden variërende datasets te onderzoeken om correlaties, verborgen patronen en andere nuttige inzichten aan het licht te brengen.
De gezondheidssector heeft enorme hoeveelheden complexe, heterogene medische en klinische data. De toepassing van big data analytics op gezondheidsdata biedt enorm potentieel voor het afleiden van inzichten die de zorgverlening kunnen verbeteren. Echter, de omvang van deze datasets presenteert grote uitdagingen bij analyses en praktische toepassingen in een klinische omgeving.
In deze door een instructeur geleide, live training (op afstand), leren de deelnemers hoe ze big data analytics in de gezondheidszorg kunnen uitvoeren terwijl ze stap voor stap meedoen aan een serie hands-on oefeningen in de live-lab.
Tegen het einde van deze training zullen de deelnemers in staat zijn:
- Big data analytics tools zoals Hadoop MapReduce en Spark te installeren en configureren
- De kenmerken van medische data te begrijpen
- Big data technieken toe te passen op medische data
- Big data systemen en algoritmen in het licht van gezondheidsapplicaties te bestuderen
Publiek
- Ontwikkelaars
- Data wetenschappers
Vorm van de cursus
- Een deel college, een deel discussie, oefeningen en veel hands-on praktijk.
Opmerking
- Voor een aangepaste training voor deze cursus, neem contact met ons op om het in te richten.
Hadoop voor beheerders
21 UrenApache Hadoop is het meest populaire framework voor verwerking op clusters van servers. In deze drie (optioneel, vier) dagen cursus leren deelnemers over de zakelijke voordelen en gebruiksscenario’s voor Hadoop en zijn ecosystem, hoe ze een clusterimplementatie en groei moeten plannen, hoe ze Hadoop moeten installeren, onderhouden, monitoren, opsporen en optimaliseren. Ze oefenen ook met bulk gegevenslading in een cluster, raken vertrouwd met verschillende Hadoop-distributies en oefenen met het installeren en beheren van Hadoop-ecosysteemtools. De cursus sluit af met een discussie over het beveiligen van een cluster met Kerberos.
“…De materialen waren zeer goed voorbereid en gedetailleerd. Het Lab was zeer nuttig en goed georganiseerd” — Andrew Nguyen, Principal Integration DW Engineer, Microsoft Online Advertising
Aanwezigheid
Hadoop beheerders
Formaat
College en hands-on labo’s, ongeveer 60% college, 40% labo’s.
Hadoop voor ontwikkelaars (4 dagen)
28 UrenApache Hadoop is het meest gebruikte framework voor het verwerken van Big Data op clusters van servers. Deze cursus introduceert een ontwikkelaar aan diverse componenten (HDFS, MapReduce, Pig, Hive en HBase) binnen de Hadoop-ecosysteem.
Geavanceerd Hadoop voor Ontwikkelaars
21 UrenApache Hadoop is een van de populairste frameworks voor het verwerken van Big Data op clusters van servers. Deze cursus gaat dieper in op datamanagement in HDFS, geavanceerde Pig, Hive en HBase. Deze geavanceerde programmeringstechnieken zijn voordelig voor ervaren Hadoop-ontwikkelaars.
Publiek: ontwikkelaars
Duur: drie dagen
Formaat: colleges (50%) en praktijkopdrachten (50%).
Hadoop-beheer op MapR
28 UrenDoelgroep:
Deze cursus is bedoeld om big data/Hadoop-technologie te ontrafelen en te tonen dat het niet moeilijk is om te begrijpen.
Hadoop en Spark voor Administratoren
35 UrenDit instructeur-led live training in België (online of on-site) is gericht op systeembeheerders die willen leren hoe ze Hadoop-clusters binnen hun organisatie kunnen instellen, implementeren en beheren.
Na afloop van deze training zullen de deelnemers in staat zijn om:
- Apache Hadoop te installeren en configureren.
- De vier belangrijkste componenten in het Hadoop-ecosysteem te begrijpen: HDFS, MapReduce, YARN en Hadoop Common.
- Hadoop Distributed File System (HDFS) te gebruiken om een cluster te schalen naar honderden of duizenden knooppunten.
- HDFS in te stellen als opslagengine voor on-premise Spark-implementaties.
- Spark in te stellen om alternatieve opslagoplossingen zoals Amazon S3 en NoSQL-databasesystemen zoals Redis, Elasticsearch, Couchbase, Aerospike, etc. te benaderen.
- Beheerders taken uit te voeren zoals provisioning, management, monitoring en beveiliging van een Apache Hadoop-cluster.
HBase voor ontwikkelaars
21 UrenDit cursus introduceert HBase – een NoSQL store bovenop Hadoop. Het is bedoeld voor ontwikkelaars die HBase zullen gebruiken om toepassingen te ontwikkelen, en beheerders die HBase-clusters zullen beheren.
We lopen een ontwikkelaar door de HBase-architectuur en datamodellering, en ontwikkeling van toepassingen op HBase. Het bespreekt ook het gebruik van MapReduce met HBase en enkele beheeronderwerpen gerelateerd aan prestatieoptimalisatie. De cursus is erg praktijkgericht met veel laboefeningen.
Duur : 3 dagen
Publiek : Ontwikkelaars & Beheerders
Apache NiFi voor Beheerders
21 UrenApache NiFi is een open-source, op stromen gebaseerd platform voor gegevensintegratie en -verwerking. Het stelt automatische, real-time dataverzending, transformatie en systeemediatie tussen verschillende systemen mogelijk, met een webinterface en fijnmazige controle.
Dit instructeurgeleide, live training (op locatie of op afstand) is gericht op beheerders en ingenieurs van middelbare niveau die willen implementeren, beheren, beveiligen en optimaliseren van NiFi-dataflows in productieomgevingen.
Na het volgen van deze training zullen de deelnemers in staat zijn:
- Apache NiFi-clusters installeren, configureren en onderhouden.
- Dataflows van verschillende bronnen en doelen ontwerpen en beheren.
- Flow-automatisering, -routering en -transformatielogica implementeren.
- Prestaties optimaliseren, bewerkingen monitoren en problemen oplossen.
Format van de cursus
- Interactieve lezing met discussie over echte architectuur.
- Praktijkopdrachten: bouwen, implementeren en beheren van flows.
- Scenario-gebaseerde oefeningen in een live-labomgeving.
Cursusaanpassingsmogelijkheden
- Voor een aangepaste training voor deze cursus kunt u ons contacteren om de details te bespreken.
Apache NiFi voor ontwikkelaars
7 UrenIn deze door een instructeur geleide, live training in België leren deelnemers de basisprincipes van flow-based programmeren terwijl ze een aantal demo-extensies, componenten en processors ontwikkelen met behulp van Apache NiFi.
Aan het einde van deze training zijn de deelnemers in staat om:
- Begrijp de architectuur en dataflowconcepten van NiFi.
- Ontwikkel extensies met behulp van NiFi en API's van derden.
- Op maat ontwikkelen van hun eigen Apache Nifi processor.
- Neem real-time gegevens op en verwerk ze uit ongelijksoortige en ongebruikelijke bestandsindelingen en gegevensbronnen.
PySpark en Machine Learning
21 UrenDeze training biedt een praktische introductie tot het opzetten van schaalbare dataprocessen en Machine Learning-werkstromen met PySpark. Deelnemers leren hoe Apache Spark functioneert binnen moderne Big Data-ecosystemen en hoe ze grote datasets efficiënt kunnen verwerken met behulp van principes van gedistribueerde computing.
Python en Spark voor Big Data (PySpark)
21 UrenIn deze door een instructeur geleide, live training in België, leren deelnemers hoe ze Python en Spark samen kunnen gebruiken om big data te analyseren terwijl ze werken aan praktische oefeningen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Leer hoe u Spark kunt gebruiken met Python om Big Data te analyseren.
- Werk aan oefeningen die gevallen uit de echte wereld nabootsen.
- Gebruik verschillende tools en technieken voor big data-analyse met behulp van PySpark.
Python, Spark, en Hadoop voor Big Data
21 UrenDeze live training in België onder leiding van een instructeur (online of op locatie) is bedoeld voor ontwikkelaars die Spark, Hadoop en Python willen gebruiken en integreren om grote en complexe datasets te verwerken, analyseren en transformeren.
Aan het einde van deze training zijn de deelnemers in staat om:
- Zet de benodigde omgeving in om te beginnen met het verwerken van big data met Spark, Hadoop en Python.
- Krijg inzicht in de functies, kernonderdelen en architectuur van Spark en Hadoop.
- Leer hoe u Spark, Hadoop en Python kunt integreren voor de verwerking van big data.
- Verken de tools in het Spark-ecosysteem (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka en Flume).
- Bouw gezamenlijke filteraanbevelingssystemen die vergelijkbaar zijn met Netflix, YouTube, Amazon, Spotify en Google.
- Gebruik Apache Mahout om machine learning-algoritmen te schalen.
Stratio: Rocket en Intelligence Modules met PySpark
14 UrenStratio is een datacentrisch platform dat big data, AI en governance integreert in één oplossing. De Rocket- en Intelligence-modules maken snelle data-exploratie, transformatie en geavanceerde analyse mogelijk in bedrijfsumgevingen.
Deze door instructeurs geleide, live-training (online of op locatie) is gericht op geavanceerde data-professionals die de Rocket- en Intelligence-modules in Stratio effectief willen gebruiken met PySpark, met focus op lusstructuren, gebruikersgedefinieerde functies en geavanceerde datalogica.
Aan het einde van deze training zullen de deelnemers in staat zijn om:
- Te navigeren en te werken binnen het Stratio-platform met behulp van de Rocket- en Intelligence-modules.
- PySpark toe te passen in de context van data-inname, transformatie en analyse.
- Lussen en conditionele logica te gebruiken om data-workflows en feature-engineeringtaken te besturen.
- Gebruikersgedefinieerde functies (UDFs) te creëren en beheren voor herbruikbare data-operaties in PySpark.
Formaat van de cursus
- Interactieve colleges en discussies.
- Veel oefeningen en praktijk.
- Hands-on implementatie in een live-laboratoriumomgeving.
Opties voor cursusaanpassing
- Voor het aanvragen van een aangepaste training voor deze cursus, neem dan contact met ons op om dit te regelen.