Apache Iceberg Fundamentals Training Cursus
Apache Iceberg is een open-source tabelformaat voor grote datasets dat de betrouwbaarheid en eenvoud van SQL-tabellen brengt naar big data. Het is ontworpen om de uitdagingen van het beheren van big data in datalakes op te lossen, wat vaak het omgaan met complexe schema's, grote bestanden en diverse databronnen betreft.
Deze instructeurgeleide live training (online of op locatie) is bedoeld voor beginnende data-professionals die de kennis en vaardigheden willen verwerven die nodig zijn om Apache Iceberg effectief te gebruiken voor het beheren van grote datasets, het waarborgen van data-integriteit en het optimaliseren van data-verwerkingswerkstromen.
Aan het einde van deze training kunnen de deelnemers:
- Een diepgaande begrip krijgen van de architectuur, functies en voordelen van Apache Iceberg.
- Leren over tabelformaten, partitie-onderverdeling, schema-evolutie en tijdsreistijdmogelijkheden.
- Apache Iceberg installeren en configureren in verschillende omgevingen.
- Apache Iceberg-tabellen aanmaken, beheren en manipuleren.
- Het proces van het migreren van data van andere tabelformaten naar Iceberg begrijpen.
Opzet van de cursus
- Interactieve lezing en discussie.
- Veel oefeningen en praktijk.
- Hand-on implementatie in een live-labomgeving.
Opties voor aanpassing van de cursus
- Neem contact met ons op om een aangepaste training voor deze cursus te aanvragen.
Cursusaanbod
Inleiding tot Apache Iceberg
- Overzicht van Apache Iceberg
- Belang en toepassingen in moderne data-architectuur
- Belangrijke kenmerken en voordelen
Kernconcepten
- Iceberg tabelformaat en architectuur
- Vergelijking met andere tabelformaten
- Partitieering en schema-evolutie
- Time travel en data-versiebeheer
Apache Iceberg instellen
- Installatie en configuratie
- Integreer Iceberg met verschillende data-verwerkingsmotoren
- Instellen van een Iceberg-omgeving op een lokale machine
Basisoperaties
- Het aanmaken en beheren van Iceberg-tabellen
- Schrijven naar en lezen uit Iceberg-tabellen
- Basis CRUD-operaties
Datamigratie en integratie
- Gegevens migreren van Hive en andere systemen naar Iceberg
- Integratie met BI-tools
- Migreren van een voorbeelddataset naar Iceberg
Prestatie optimaliseren
- Prestatieoptimalisatie technieken
- Optimaliseren van queries en gegevensscans
- Prestatieoptimalisatie in Iceberg
Overzicht van geavanceerde functies
- Partitie-evolutie en verborgen partitieering
- Tabelevolutie en schemawijzigingen
- Time travel en rollback-functies
- Implementeren van geavanceerde functies in Iceberg
Samenvatting en volgende stappen
Vereisten
- Kennis van concepten zoals tabellen, schema's, partities en data-invoer
- Basis kennis van SQL
Publiek
- Data engineers
- Data architects
- Data analysts
- Software developers
Voor open trainingen is een minimum aantal van 5 deelnemers vereist
Apache Iceberg Fundamentals Training Cursus - Boeking
Apache Iceberg Fundamentals Training Cursus - Navraag
Apache Iceberg Fundamentals - Consultancyaanvraag
Getuigenissen (1)
Praktijkopdrachten. De cursus had eigenlijk vijf dagen moeten duren, maar de drie dagen hebben al veel van mijn vragen beantwoord die ik had na het werken met NiFi.
James - BHG Financial
Cursus - Apache NiFi for Administrators
Automatisch vertaald
Voorlopige Aankomende Cursussen
Gerelateerde cursussen
Advanced Apache Iceberg
21 UrenDeze door een instructeur geleide, live training (online of ter plekke) is gericht op geavanceerde dataprofessionals die dataverwerkingswerkstromen willen optimaliseren, data-integriteit willen waarborgen en robuuste data lakehouse-oplossingen willen implementeren die de complexiteiten van moderne big data-applicaties kunnen aan.
Aan het einde van deze training zullen de deelnemers in staat zijn om:
- Een diepgaande kennis te verwerven van de architectuur van Iceberg, inclusief metadata-beheer en bestandsindeling.
- Iceberg te configureren voor optimale prestaties in verschillende omgevingen en te integreren met meerdere dataverwerkingsmotoren.
- Grote Iceberg-tabellen beheren, complexe schemacomponenten uitvoeren en partitie-evolutie beheren.
- Technieken beheersen om de queryprestaties en de efficiëntie van datascans te optimaliseren voor grote datasets.
- Mechanismen implementeren om data-consistentie te waarborgen, transactiegaranties te beheren en fouten in gedistribueerde omgevingen te verhelpen.
Big Data-analyse met Google Colab en Apache Spark
14 UrenDeze door een instructeur geleide live training (online of op locatie) is bedoeld voor datascientists en ingenieurs op intermediair niveau die Google Colab en Apache Spark willen gebruiken voor big data verwerking en analyse.
Aan het einde van deze training kunnen deelnemers:
- Een big data omgeving instellen met behulp van Google Colab en Spark.
- Grote datasets efficiënt verwerken en analyseren met Apache Spark.
- Big data visualiseren in een samenwerkingsomgeving.
- Apache Spark integreren met cloudgebaseerde hulpmiddelen.
Big Data Business Intelligence voor Overheidsinstanties
35 UrenTechnologische vorderingen en de toenemende hoeveelheid informatie veranderen hoe bedrijven in vele sectoren, inclusief het overheidsapparaat, hun zaken doen. De generatie en digitale archivering van overheidsgegevens nemen toe door de snelle groei van mobiele apparaten en toepassingen, slimme sensoren en apparaten, cloudcomputing-oplossingen en burgers gerichte portalen. Naarmate digitale informatie uitbreidt en complexer wordt, worden informatiebeheer, verwerking, opslag, beveiliging en verwerking eveneens complexer. Nieuwe hulpmiddelen voor vangen, zoeken, ontdekken en analyseren helpen organisaties inzichten te krijgen uit hun ongestructureerde gegevens. De overheidsmarkt staat op een waterscheid en realiseert dat informatie een strategisch bezit is, en het overheid nodig heeft om zowel gestructureerde als ongestructureerde informatie te beschermen, te benutten en te analyseren om de burger beter te dienen en missionaire vereisten te voldoen. Terwijl overheidsleiders streven naar een data-drijvende organisatie om hun missie succesvol uit te voeren, leggen zij de basis om afhankelijkheden tussen gebeurtenissen, mensen, processen en informatie samen te brengen.
Waardevolle overheidsoplossingen zullen ontstaan door een mengsel van de meest disruptieve technologieën:
- Mobiele apparaten en toepassingen
- Cloudservices
- Sociale bedrijvstechnologieën en netwerken
- Big Data en analytics
Big Data is één van de intelligente industrieoplossingen en maakt het mogelijk voor overheidsinstanties betere beslissingen te nemen door actie te ondernemen op basis van patronen die worden onthuld door de analyse van grote hoeveelheden gegevens - gerelateerd of niet, gestructureerd of ongestructureerd.
Maar het bereiken van deze prestaties vraagt meer dan alleen het vergaren van enorme hoeveelheden gegevens. “Het begrijpen van deze hoeveelheden Big Data vereist snijrandtechnologieën die kunnen analyseren en nuttige kennis kunnen winnen uit omvangrijke en diverse informatiestromen,” schreven Tom Kalil en Fen Zhao van het Witte Huis Office of Science and Technology Policy in een blogpost.
Het Witte Huis zette een stap richting het helpen van instanties bij het vinden van deze technologieën toen het de National Big Data Research and Development Initiative in 2012 lanceerde. De initiatief omvat meer dan $200 miljoen om het beste uit te halen van de explosieve groei van Big Data en de tools die nodig zijn om het te analyseren.
De uitdagingen waarmee Big Data gepaard gaat, zijn bijna even ontmoedigend als de beloften eropvallend aanmoedigend. Een efficiënte gegevensopslag is één van deze uitdagingen. Budgets blijven strak, dus instanties moeten de prijs per megabyte voor opslag minimaliseren en de gegevens gemakkelijk toegankelijk houden zodat gebruikers ze kunnen krijgen wanneer ze dat willen en hoe ze het nodig hebben. Het back-uppen van enorme hoeveelheden gegevens verhoogt deze uitdaging.
Effectief analyseren van de gegevens is een andere grote uitdaging. Veel instanties gebruiken commerciële tools die hun mogelijk maken door bergen gegevens heen te ploegen, trends te ontdekken die hen helpen efficiënter te opereren. (Een recent onderzoek door MeriTalk toonde aan dat federale IT-uitvoerenden denken dat Big Data instanties meer dan $500 miljard kan helpen besparen terwijl het ook missionaire doelstellingen vervult.)
Aangepaste ontwikkelde Big Data-tools maken het ook mogelijk voor instanties om de noodzaak te benaderen om hun gegevens te analyseren. Bijvoorbeeld, het Computational Data Analytics Group van het Oak Ridge National Laboratory heeft zijn Piranha-gegevensanalyse systeem beschikbaar gemaakt voor andere instanties. Het systeem heeft medische onderzoekers geholpen een link te vinden die artsen kan waarschuwen voor aortaverwijdingen voordat ze optreden. Het wordt ook gebruikt voor meer alledaagse taken, zoals het doorzoeken van CV's om sollicitanten met werkgevers in contact te brengen.
Hadoop voor beheerders
21 UrenApache Hadoop is het meest populaire framework voor verwerking op clusters van servers. In deze drie (optioneel, vier) dagen cursus leren deelnemers over de zakelijke voordelen en gebruiksscenario’s voor Hadoop en zijn ecosystem, hoe ze een clusterimplementatie en groei moeten plannen, hoe ze Hadoop moeten installeren, onderhouden, monitoren, opsporen en optimaliseren. Ze oefenen ook met bulk gegevenslading in een cluster, raken vertrouwd met verschillende Hadoop-distributies en oefenen met het installeren en beheren van Hadoop-ecosysteemtools. De cursus sluit af met een discussie over het beveiligen van een cluster met Kerberos.
“…De materialen waren zeer goed voorbereid en gedetailleerd. Het Lab was zeer nuttig en goed georganiseerd” — Andrew Nguyen, Principal Integration DW Engineer, Microsoft Online Advertising
Aanwezigheid
Hadoop beheerders
Formaat
College en hands-on labo’s, ongeveer 60% college, 40% labo’s.
Apache NiFi voor Beheerders
21 UrenApache NiFi is een open-source, op stromen gebaseerd platform voor gegevensintegratie en -verwerking. Het stelt automatische, real-time dataverzending, transformatie en systeemediatie tussen verschillende systemen mogelijk, met een webinterface en fijnmazige controle.
Dit instructeurgeleide, live training (op locatie of op afstand) is gericht op beheerders en ingenieurs van middelbare niveau die willen implementeren, beheren, beveiligen en optimaliseren van NiFi-dataflows in productieomgevingen.
Na het volgen van deze training zullen de deelnemers in staat zijn:
- Apache NiFi-clusters installeren, configureren en onderhouden.
- Dataflows van verschillende bronnen en doelen ontwerpen en beheren.
- Flow-automatisering, -routering en -transformatielogica implementeren.
- Prestaties optimaliseren, bewerkingen monitoren en problemen oplossen.
Format van de cursus
- Interactieve lezing met discussie over echte architectuur.
- Praktijkopdrachten: bouwen, implementeren en beheren van flows.
- Scenario-gebaseerde oefeningen in een live-labomgeving.
Cursusaanpassingsmogelijkheden
- Voor een aangepaste training voor deze cursus kunt u ons contacteren om de details te bespreken.
Apache NiFi voor ontwikkelaars
7 UrenIn deze door een instructeur geleide, live training in België leren deelnemers de basisprincipes van flow-based programmeren terwijl ze een aantal demo-extensies, componenten en processors ontwikkelen met behulp van Apache NiFi.
Aan het einde van deze training zijn de deelnemers in staat om:
- Begrijp de architectuur en dataflowconcepten van NiFi.
- Ontwikkel extensies met behulp van NiFi en API's van derden.
- Op maat ontwikkelen van hun eigen Apache Nifi processor.
- Neem real-time gegevens op en verwerk ze uit ongelijksoortige en ongebruikelijke bestandsindelingen en gegevensbronnen.
PySpark en Machine Learning
21 UrenDeze training biedt een praktische introductie tot het opzetten van schaalbare dataprocessen en Machine Learning-werkstromen met PySpark. Deelnemers leren hoe Apache Spark functioneert binnen moderne Big Data-ecosystemen en hoe ze grote datasets efficiënt kunnen verwerken met behulp van principes van gedistribueerde computing.
Apache Spark Fundamentals
21 UrenDit instructeur-geloodste live-training in België (online of on-site) is bedoeld voor ingenieurs die Apache Spark willen instellen en implementeren voor het verwerken van zeer grote hoeveelheden gegevens.
Na afloop van deze training zullen de deelnemers in staat zijn om:
- Apache Spark te installeren en configureren.
- Zeer grote gegevenssets snel te verwerken en te analyseren.
- Het verschil tussen Apache Spark en Hadoop MapReduce te begrijpen, en wanneer welk systeem gebruikt moet worden.
- Apache Spark te integreren met andere machine learning-tools.
Administration van Apache Spark
35 UrenDeze live training onder leiding van een instructeur in België (online of op locatie) is bedoeld voor beginnende tot gemiddelde systeembeheerders die Spark-clusters willen implementeren, onderhouden en optimaliseren.
Aan het einde van deze training zijn de deelnemers in staat om:
- Installeer en configureer Apache Spark in verschillende omgevingen.
- Clusterresources beheren en Spark-toepassingen bewaken.
- Optimaliseer de prestaties van Spark-clusters.
- Implementeer beveiligingsmaatregelen en zorg voor een hoge beschikbaarheid.
- Veelvoorkomende problemen met Spark opsporen en oplossen.
Apache Spark in de Cloud
21 UrenDe leercurve van Apache Spark begint traag en stijgt langzaam in het begin, het vereist veel moeite om de eerste resultaten te behalen. Deze cursus helpt u over het eerste moeilijke deel te springen. Na het volgen van deze cursus zullen de deelnemers de basis van Apache Spark begrijpen, ze zullen RDD duidelijk van DataFrame kunnen onderscheiden, ze zullen de Python- en Scala-API leren, ze zullen executors en taken begrijpen, enzovoort. Ook door de beste praktijken te volgen, richt deze cursus zich sterk op cloud-deployments, Databricks en AWS. De studenten zullen ook de verschillen tussen AWS EMR en AWS Glue begrijpen, een van de meest recente Spark-diensten van AWS.
AANWENDINGSGEBIED:
Data Engineer, DevOps, Data Scientist
Python en Spark voor Big Data (PySpark)
21 UrenIn deze door een instructeur geleide, live training in België, leren deelnemers hoe ze Python en Spark samen kunnen gebruiken om big data te analyseren terwijl ze werken aan praktische oefeningen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Leer hoe u Spark kunt gebruiken met Python om Big Data te analyseren.
- Werk aan oefeningen die gevallen uit de echte wereld nabootsen.
- Gebruik verschillende tools en technieken voor big data-analyse met behulp van PySpark.
Python, Spark, en Hadoop voor Big Data
21 UrenDeze live training in België onder leiding van een instructeur (online of op locatie) is bedoeld voor ontwikkelaars die Spark, Hadoop en Python willen gebruiken en integreren om grote en complexe datasets te verwerken, analyseren en transformeren.
Aan het einde van deze training zijn de deelnemers in staat om:
- Zet de benodigde omgeving in om te beginnen met het verwerken van big data met Spark, Hadoop en Python.
- Krijg inzicht in de functies, kernonderdelen en architectuur van Spark en Hadoop.
- Leer hoe u Spark, Hadoop en Python kunt integreren voor de verwerking van big data.
- Verken de tools in het Spark-ecosysteem (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka en Flume).
- Bouw gezamenlijke filteraanbevelingssystemen die vergelijkbaar zijn met Netflix, YouTube, Amazon, Spotify en Google.
- Gebruik Apache Mahout om machine learning-algoritmen te schalen.
Apache Spark SQL
7 UrenSpark SQL is het module van Apache Spark voor werken met gestructureerde en ongestructureerde gegevens. Spark SQL biedt informatie over de structuur van de gegevens en de uitgevoerde berekeningen. Deze informatie kan worden gebruikt om optimalisaties door te voeren. Twee veelvoorkomende toepassingen voor Spark SQL zijn:
- om SQL-query's uit te voeren.
- om gegevens te lezen van een bestaande Hive-installatie.
Tijdens deze trainer-led, live training (op locatie of online), zullen de deelnemers leren hoe ze verschillende soorten datasets kunnen analyseren met Spark SQL.
Na afloop van deze training zullen de deelnemers in staat zijn om:
- Spark SQL te installeren en te configureren.
- Gegevensanalyse uit te voeren met Spark SQL.
- Datasets in verschillende formaten op te vragen.
- Gegevens en queryresultaten te visualiseren.
Cursusopzet
- Interactieve les en discussie.
- Veel oefeningen en praktijk.
- Het uitvoeren van implementaties in een live-lab omgeving.
Cursusaanpassingsmogelijkheden
- Om een aangepaste training voor deze cursus aan te vragen, neem contact met ons op om de details te bespreken.
Stratio: Rocket en Intelligence Modules met PySpark
14 UrenStratio is een datacentrisch platform dat big data, AI en governance integreert in één oplossing. De Rocket- en Intelligence-modules maken snelle data-exploratie, transformatie en geavanceerde analyse mogelijk in bedrijfsumgevingen.
Deze door instructeurs geleide, live-training (online of op locatie) is gericht op geavanceerde data-professionals die de Rocket- en Intelligence-modules in Stratio effectief willen gebruiken met PySpark, met focus op lusstructuren, gebruikersgedefinieerde functies en geavanceerde datalogica.
Aan het einde van deze training zullen de deelnemers in staat zijn om:
- Te navigeren en te werken binnen het Stratio-platform met behulp van de Rocket- en Intelligence-modules.
- PySpark toe te passen in de context van data-inname, transformatie en analyse.
- Lussen en conditionele logica te gebruiken om data-workflows en feature-engineeringtaken te besturen.
- Gebruikersgedefinieerde functies (UDFs) te creëren en beheren voor herbruikbare data-operaties in PySpark.
Formaat van de cursus
- Interactieve colleges en discussies.
- Veel oefeningen en praktijk.
- Hands-on implementatie in een live-laboratoriumomgeving.
Opties voor cursusaanpassing
- Voor het aanvragen van een aangepaste training voor deze cursus, neem dan contact met ons op om dit te regelen.