Schaal Data Pipelines met Spark NLP Training Cursus
Spark NLP is een open source bibliotheek, gebouwd op Apache Spark, voor natuurlijke taalverwerking met Python, Java en Scala. Het wordt veel gebruikt voor verticale ondernemingen en industrieën, zoals gezondheidszorg, financiën, biowetenschappen en werving.
Deze live training onder leiding van een instructeur (online of op locatie) is bedoeld voor datawetenschappers en -ontwikkelaars die Spark NLP, gebouwd op Apache Spark, willen gebruiken om tekstverwerkingsmodellen en pijplijnen voor natuurlijke taal te ontwikkelen, implementeren en schalen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Zet de benodigde ontwikkelomgeving op om NLP-pijplijnen te gaan bouwen met Spark NLP.
- Begrijp de functies, architectuur en voordelen van het gebruik van Spark NLP.
- Gebruik de vooraf getrainde modellen die beschikbaar zijn in Spark NLP om tekstverwerking te implementeren.
- Leer hoe u modellen Spark NLP kunt bouwen, trainen en schalen voor projecten van productiekwaliteit.
- Pas classificatie-, inferentie- en sentimentanalyse toe op real-world gebruiksscenario's (klinische gegevens, inzichten in klantgedrag, enz.).
Vorm van de cursus
- Interactieve lezing en discussie.
- Veel oefeningen en oefenen.
- Hands-on implementatie in een live-lab omgeving.
Opties voor het aanpassen van cursussen
- Om een training op maat voor deze cursus aan te vragen, neem dan contact met ons op om een afspraak te maken.
Cursusaanbod
Introductie
- Spark NLP tegen NLTK tegen spaCy
- Overzicht van Spark NLP functies en architectuur
Slag
- Vereisten voor installatie
- Installeren Spark NLP
- Algemene concepten
Vooraf getrainde pijplijnen gebruiken
- Benodigde modules importeren
- Standaard annotators
- Een pijplijnmodel laden
- Teksten transformeren
NLP-pijpleidingen bouwen
- Inzicht in de pijplijn-API
- Implementatie van NER-modellen
- Inbeddingen kiezen
- Woord-, zins- en universele inbeddingen gebruiken
Classificatie en gevolgtrekking
- Gebruiksscenario's voor documentclassificatie
- Modellen voor sentimentanalyse
- Een documentclassificatie trainen
- Andere machine learning-frameworks gebruiken
- NLP-modellen beheren
- Modellen optimaliseren voor inferentie met lage latentie
Probleemoplossing
Samenvatting en volgende stappen
Vereisten
- Bekendheid met Apache Spark
- Python Ervaring met programmeren
Audiëntie
- Datawetenschappers
- Ontwikkelaars
Voor open trainingen is een minimum aantal van 5 deelnemers vereist
Schaal Data Pipelines met Spark NLP Training Cursus - Boeking
Schaal Data Pipelines met Spark NLP Training Cursus - Navraag
Schaal Data Pipelines met Spark NLP - Consultancyaanvraag
Getuigenissen (2)
De oefeningen en de uitwisseling tijdens de vragen- en antwoorden sessies
Antoine - Physiobotic
Cursus - Scaling Data Pipelines with Spark NLP
Automatisch vertaald
De goede humeur, het begeleiden en de vaardigheden van de trainer.
Oumayma - Physiobotic
Cursus - Scaling Data Pipelines with Spark NLP
Automatisch vertaald
Voorlopige Aankomende Cursussen
Gerelateerde cursussen
Big Data-analyse met Google Colab en Apache Spark
14 UrenDeze door een instructeur geleide live training (online of op locatie) is bedoeld voor datascientists en ingenieurs op intermediair niveau die Google Colab en Apache Spark willen gebruiken voor big data verwerking en analyse.
Aan het einde van deze training kunnen deelnemers:
- Een big data omgeving instellen met behulp van Google Colab en Spark.
- Grote datasets efficiënt verwerken en analyseren met Apache Spark.
- Big data visualiseren in een samenwerkingsomgeving.
- Apache Spark integreren met cloudgebaseerde hulpmiddelen.
Big Data Analytics in de Gezondheidszorg
21 UrenBig data analytics betreft het proces om grote hoeveelheden variërende datasets te onderzoeken om correlaties, verborgen patronen en andere nuttige inzichten aan het licht te brengen.
De gezondheidssector heeft enorme hoeveelheden complexe, heterogene medische en klinische data. De toepassing van big data analytics op gezondheidsdata biedt enorm potentieel voor het afleiden van inzichten die de zorgverlening kunnen verbeteren. Echter, de omvang van deze datasets presenteert grote uitdagingen bij analyses en praktische toepassingen in een klinische omgeving.
In deze door een instructeur geleide, live training (op afstand), leren de deelnemers hoe ze big data analytics in de gezondheidszorg kunnen uitvoeren terwijl ze stap voor stap meedoen aan een serie hands-on oefeningen in de live-lab.
Tegen het einde van deze training zullen de deelnemers in staat zijn:
- Big data analytics tools zoals Hadoop MapReduce en Spark te installeren en configureren
- De kenmerken van medische data te begrijpen
- Big data technieken toe te passen op medische data
- Big data systemen en algoritmen in het licht van gezondheidsapplicaties te bestuderen
Publiek
- Ontwikkelaars
- Data wetenschappers
Vorm van de cursus
- Een deel college, een deel discussie, oefeningen en veel hands-on praktijk.
Opmerking
- Voor een aangepaste training voor deze cursus, neem contact met ons op om het in te richten.
Hadoop en Spark voor Administratoren
35 UrenDit instructeur-led live training in België (online of on-site) is gericht op systeembeheerders die willen leren hoe ze Hadoop-clusters binnen hun organisatie kunnen instellen, implementeren en beheren.
Na afloop van deze training zullen de deelnemers in staat zijn om:
- Apache Hadoop te installeren en configureren.
- De vier belangrijkste componenten in het Hadoop-ecosysteem te begrijpen: HDFS, MapReduce, YARN en Hadoop Common.
- Hadoop Distributed File System (HDFS) te gebruiken om een cluster te schalen naar honderden of duizenden knooppunten.
- HDFS in te stellen als opslagengine voor on-premise Spark-implementaties.
- Spark in te stellen om alternatieve opslagoplossingen zoals Amazon S3 en NoSQL-databasesystemen zoals Redis, Elasticsearch, Couchbase, Aerospike, etc. te benaderen.
- Beheerders taken uit te voeren zoals provisioning, management, monitoring en beveiliging van een Apache Hadoop-cluster.
Een Praktische Inleiding tot Stream Processing
21 UrenIn deze door de instructeur geleide live training in België (op locatie of op afstand) zullen de deelnemers leren hoe ze verschillende Stream Processing frameworks kunnen instellen en integreren met bestaande big data-opslagsystemen en gerelateerde softwaretoepassingen en microservices.
Aan het einde van deze training zullen de deelnemers in staat zijn:
- Verschillende Stream Processing frameworks, zoals Spark Streaming en Kafka Streaming, te installeren en configureren.
- Het meest geschikte framework voor de klus te begrijpen en selecteren.
- Data continu, gelijktijdig en record per record te verwerken.
- Stream Processing-oplossingen te integreren met bestaande databases, data warehouses, data lakes, etc.
- De meest geschikte stream processing-bibliotheek te integreren met enterprise-toepassingen en microservices.
PySpark en Machine Learning
21 UrenDeze training biedt een praktische introductie tot het opzetten van schaalbare dataprocessen en Machine Learning-werkstromen met PySpark. Deelnemers leren hoe Apache Spark functioneert binnen moderne Big Data-ecosystemen en hoe ze grote datasets efficiënt kunnen verwerken met behulp van principes van gedistribueerde computing.
SMACK Stack voor Data Science
14 UrenDeze instructeur-geleide, live training in België (online of op locatie) is gericht op data scientists die de SMACK stack willen gebruiken om data processing platforms voor big data-oplossingen te bouwen.
Aan het einde van deze training zullen de deelnemers in staat zijn:
- Een data pipeline architectuur voor big data implementeren.
- Een cluster-infrastructuur met Apache Mesos en Docker ontwikkelen.
- Data analyseren met Spark en Scala.
- Ongestructureerde data beheren met Apache Cassandra.
Apache Spark Fundamentals
21 UrenDit instructeur-geloodste live-training in België (online of on-site) is bedoeld voor ingenieurs die Apache Spark willen instellen en implementeren voor het verwerken van zeer grote hoeveelheden gegevens.
Na afloop van deze training zullen de deelnemers in staat zijn om:
- Apache Spark te installeren en configureren.
- Zeer grote gegevenssets snel te verwerken en te analyseren.
- Het verschil tussen Apache Spark en Hadoop MapReduce te begrijpen, en wanneer welk systeem gebruikt moet worden.
- Apache Spark te integreren met andere machine learning-tools.
Administration van Apache Spark
35 UrenDeze live training onder leiding van een instructeur in België (online of op locatie) is bedoeld voor beginnende tot gemiddelde systeembeheerders die Spark-clusters willen implementeren, onderhouden en optimaliseren.
Aan het einde van deze training zijn de deelnemers in staat om:
- Installeer en configureer Apache Spark in verschillende omgevingen.
- Clusterresources beheren en Spark-toepassingen bewaken.
- Optimaliseer de prestaties van Spark-clusters.
- Implementeer beveiligingsmaatregelen en zorg voor een hoge beschikbaarheid.
- Veelvoorkomende problemen met Spark opsporen en oplossen.
Apache Spark in de Cloud
21 UrenDe leercurve van Apache Spark begint traag en stijgt langzaam in het begin, het vereist veel moeite om de eerste resultaten te behalen. Deze cursus helpt u over het eerste moeilijke deel te springen. Na het volgen van deze cursus zullen de deelnemers de basis van Apache Spark begrijpen, ze zullen RDD duidelijk van DataFrame kunnen onderscheiden, ze zullen de Python- en Scala-API leren, ze zullen executors en taken begrijpen, enzovoort. Ook door de beste praktijken te volgen, richt deze cursus zich sterk op cloud-deployments, Databricks en AWS. De studenten zullen ook de verschillen tussen AWS EMR en AWS Glue begrijpen, een van de meest recente Spark-diensten van AWS.
AANWENDINGSGEBIED:
Data Engineer, DevOps, Data Scientist
Spark voor Ontwikkelaars
21 UrenDOEL:
Dit cursus zal Apache Spark introduceren. De deelnemers zullen leren hoe Spark past in het Big Data-ecosysteem en hoe ze Spark kunnen gebruiken voor data-analyse. Het cursus behandelt de Spark-shell voor interactieve data-analyse, Spark-internals, Spark-API's, Spark SQL, Spark-streaming, machine learning en GraphX.
DOELGROEP :
Ontwikkelaars / Data-analisten
Python en Spark voor Big Data (PySpark)
21 UrenIn deze door een instructeur geleide, live training in België, leren deelnemers hoe ze Python en Spark samen kunnen gebruiken om big data te analyseren terwijl ze werken aan praktische oefeningen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Leer hoe u Spark kunt gebruiken met Python om Big Data te analyseren.
- Werk aan oefeningen die gevallen uit de echte wereld nabootsen.
- Gebruik verschillende tools en technieken voor big data-analyse met behulp van PySpark.
Python, Spark, en Hadoop voor Big Data
21 UrenDeze live training in België onder leiding van een instructeur (online of op locatie) is bedoeld voor ontwikkelaars die Spark, Hadoop en Python willen gebruiken en integreren om grote en complexe datasets te verwerken, analyseren en transformeren.
Aan het einde van deze training zijn de deelnemers in staat om:
- Zet de benodigde omgeving in om te beginnen met het verwerken van big data met Spark, Hadoop en Python.
- Krijg inzicht in de functies, kernonderdelen en architectuur van Spark en Hadoop.
- Leer hoe u Spark, Hadoop en Python kunt integreren voor de verwerking van big data.
- Verken de tools in het Spark-ecosysteem (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka en Flume).
- Bouw gezamenlijke filteraanbevelingssystemen die vergelijkbaar zijn met Netflix, YouTube, Amazon, Spotify en Google.
- Gebruik Apache Mahout om machine learning-algoritmen te schalen.
Apache Spark SQL
7 UrenSpark SQL is het module van Apache Spark voor werken met gestructureerde en ongestructureerde gegevens. Spark SQL biedt informatie over de structuur van de gegevens en de uitgevoerde berekeningen. Deze informatie kan worden gebruikt om optimalisaties door te voeren. Twee veelvoorkomende toepassingen voor Spark SQL zijn:
- om SQL-query's uit te voeren.
- om gegevens te lezen van een bestaande Hive-installatie.
Tijdens deze trainer-led, live training (op locatie of online), zullen de deelnemers leren hoe ze verschillende soorten datasets kunnen analyseren met Spark SQL.
Na afloop van deze training zullen de deelnemers in staat zijn om:
- Spark SQL te installeren en te configureren.
- Gegevensanalyse uit te voeren met Spark SQL.
- Datasets in verschillende formaten op te vragen.
- Gegevens en queryresultaten te visualiseren.
Cursusopzet
- Interactieve les en discussie.
- Veel oefeningen en praktijk.
- Het uitvoeren van implementaties in een live-lab omgeving.
Cursusaanpassingsmogelijkheden
- Om een aangepaste training voor deze cursus aan te vragen, neem contact met ons op om de details te bespreken.
Stratio: Rocket en Intelligence Modules met PySpark
14 UrenStratio is een datacentrisch platform dat big data, AI en governance integreert in één oplossing. De Rocket- en Intelligence-modules maken snelle data-exploratie, transformatie en geavanceerde analyse mogelijk in bedrijfsumgevingen.
Deze door instructeurs geleide, live-training (online of op locatie) is gericht op geavanceerde data-professionals die de Rocket- en Intelligence-modules in Stratio effectief willen gebruiken met PySpark, met focus op lusstructuren, gebruikersgedefinieerde functies en geavanceerde datalogica.
Aan het einde van deze training zullen de deelnemers in staat zijn om:
- Te navigeren en te werken binnen het Stratio-platform met behulp van de Rocket- en Intelligence-modules.
- PySpark toe te passen in de context van data-inname, transformatie en analyse.
- Lussen en conditionele logica te gebruiken om data-workflows en feature-engineeringtaken te besturen.
- Gebruikersgedefinieerde functies (UDFs) te creëren en beheren voor herbruikbare data-operaties in PySpark.
Formaat van de cursus
- Interactieve colleges en discussies.
- Veel oefeningen en praktijk.
- Hands-on implementatie in een live-laboratoriumomgeving.
Opties voor cursusaanpassing
- Voor het aanvragen van een aangepaste training voor deze cursus, neem dan contact met ons op om dit te regelen.