Schaal Data Pipelines met Spark NLP Training Cursus
Spark NLP is een open source bibliotheek, gebouwd op Apache Spark, voor natuurlijke taalverwerking met Python, Java en Scala. Het wordt veel gebruikt voor verticale ondernemingen en industrieën, zoals gezondheidszorg, financiën, biowetenschappen en werving.
Deze live training onder leiding van een instructeur (online of op locatie) is bedoeld voor datawetenschappers en -ontwikkelaars die Spark NLP, gebouwd op Apache Spark, willen gebruiken om tekstverwerkingsmodellen en pijplijnen voor natuurlijke taal te ontwikkelen, implementeren en schalen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Zet de benodigde ontwikkelomgeving op om NLP-pijplijnen te gaan bouwen met Spark NLP.
- Begrijp de functies, architectuur en voordelen van het gebruik van Spark NLP.
- Gebruik de vooraf getrainde modellen die beschikbaar zijn in Spark NLP om tekstverwerking te implementeren.
- Leer hoe u modellen Spark NLP kunt bouwen, trainen en schalen voor projecten van productiekwaliteit.
- Pas classificatie-, inferentie- en sentimentanalyse toe op real-world gebruiksscenario's (klinische gegevens, inzichten in klantgedrag, enz.).
Vorm van de cursus
- Interactieve lezing en discussie.
- Veel oefeningen en oefenen.
- Hands-on implementatie in een live-lab omgeving.
Opties voor het aanpassen van cursussen
- Om een training op maat voor deze cursus aan te vragen, neem dan contact met ons op om een afspraak te maken.
Cursusaanbod
Introductie
- Spark NLP tegen NLTK tegen spaCy
- Overzicht van Spark NLP functies en architectuur
Slag
- Vereisten voor installatie
- Installeren Spark NLP
- Algemene concepten
Vooraf getrainde pijplijnen gebruiken
- Benodigde modules importeren
- Standaard annotators
- Een pijplijnmodel laden
- Teksten transformeren
NLP-pijpleidingen bouwen
- Inzicht in de pijplijn-API
- Implementatie van NER-modellen
- Inbeddingen kiezen
- Woord-, zins- en universele inbeddingen gebruiken
Classificatie en gevolgtrekking
- Gebruiksscenario's voor documentclassificatie
- Modellen voor sentimentanalyse
- Een documentclassificatie trainen
- Andere machine learning-frameworks gebruiken
- NLP-modellen beheren
- Modellen optimaliseren voor inferentie met lage latentie
Probleemoplossing
Samenvatting en volgende stappen
Vereisten
- Bekendheid met Apache Spark
- Python Ervaring met programmeren
Audiëntie
- Datawetenschappers
- Ontwikkelaars
Voor open trainingen is een minimum aantal van 5 deelnemers vereist
Schaal Data Pipelines met Spark NLP Training Cursus - Booking
Schaal Data Pipelines met Spark NLP Training Cursus - Enquiry
Schaal Data Pipelines met Spark NLP - Consultancyaanvraag
Consultancyaanvraag
Testimonials (2)
Oefeningen en uitwisselingen tijdens vragen en antwoorden
Antoine - Physiobotic
Cursus - Scaling Data Pipelines with Spark NLP
Automatisch vertaald
Het goede humeur, de ondersteuning en de vaardigheden van de trainer.
Oumayma - Physiobotic
Cursus - Scaling Data Pipelines with Spark NLP
Automatisch vertaald
Voorlopige Aankomende Cursussen
Gerelateerde cursussen
Kunstmatige intelligentie - de meest toegepaste dingen - Data Analysis + Gedistribueerde AI + NLP
21 UrenDit cursus richt zich op ontwikkelaars en datawetenschappers die kunstmatige intelligentie willen begrijpen en implementeren in hun toepassingen. Er is speciale aandacht voor data-analyse, gedistribueerde kunstmatige intelligentie en natuurlijke taalverwerking.
Big Data Analytics in Health
21 UrenBig data-analyse omvat het proces van het onderzoeken van grote hoeveelheden gevarieerde gegevenssets om correlaties, verborgen patronen en andere nuttige inzichten te ontdekken.
De gezondheidsindustrie heeft enorme hoeveelheden complexe heterogene medische en klinische gegevens. Het toepassen van big data-analyses op gezondheidsgegevens biedt een enorm potentieel voor het verkrijgen van inzichten voor het verbeteren van de gezondheidszorg. De enorme omvang van deze datasets vormt echter grote uitdagingen bij analyses en praktische toepassingen in een klinische omgeving.
In deze door een instructeur geleide, live training (op afstand), leren deelnemers hoe ze big data-analyses in gezondheid kunnen uitvoeren terwijl ze een reeks praktische live-laboefeningen doorlopen.
Aan het einde van deze training kunnen deelnemers:
- Installeer en configureer big data-analysehulpmiddelen zoals Hadoop MapReduce en Spark
- Begrijp de kenmerken van medische gegevens
- Pas big data-technieken toe om met medische gegevens om te gaan
- Bestudeer big data-systemen en algoritmen in het kader van gezondheidstoepassingen
Publiek
- ontwikkelaars
- Data Scientists
Indeling van de cursus
- Deelcollege, deelbespreking, oefeningen en zware praktijkoefeningen.
Notitie
- Neem contact met ons op om een aangepaste training voor deze cursus aan te vragen.
Introduce op Graph Computing
28 UrenIn deze door een instructeur geleide, live training in België, leren deelnemers over het technologieaanbod en de implementatiebenaderingen voor het verwerken van grafiekgegevens. Het doel is om objecten uit de echte wereld, hun kenmerken en relaties te identificeren, deze relaties vervolgens te modelleren en ze als gegevens te verwerken met behulp van een Graph Computing (ook bekend als Graph Analytics) benadering. We beginnen met een breed overzicht en beperken ons tot specifieke tools terwijl we een reeks casestudy's, hands-on oefeningen en live implementaties doorlopen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Begrijp hoe grafiekgegevens worden bewaard en doorkruist.
- Selecteer het beste framework voor een bepaalde taak (van graph databases tot batch processing frameworks).
- Implementeer Hadoop, Spark, GraphX en Pregel om grafiekberekeningen op veel machines parallel uit te voeren.
- Bekijk real-world big data-problemen in termen van grafieken, processen en traversals.
Hadoop en Spark voor Administrateurs
35 UrenDeze instructeur-geleide, live training in België (op locatie of op afstand) is gericht op systeembeheerders die willen leren hoe ze clusters binnen hun organisatie kunnen opzetten, implementeren en beheren.
Aan het einde van deze training kunnen deelnemers:
- Installeer en configureer Apache Hadoop.
- Begrijp de vier belangrijkste componenten in het Hadoop-ecosysteem: HDFS, MapReduce, YARN en Hadoop Common.
- Gebruik Hadoop Distributed File System (HDFS) om een cluster te schalen naar honderden of duizenden knooppunten.
- Stel HDFS in om te functioneren als opslagengine voor on-premise Spark-implementaties.
- Stel Spark in voor toegang tot alternatieve opslagoplossingen zoals Amazon S3 en NoSQL databasesystemen zoals Redis, Elasticsearch, Couchbase, Aerospike, enz.
- Voer administratieve taken uit zoals het inrichten, beheren, monitoren en beveiligen van een Apache Hadoop-cluster.
Hortonworks Data Platform (HDP) voor Beheerders
21 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) introduceert Hortonworks Data Platform (HDP) en leidt deelnemers door de implementatie van de Spark + Hadoop-oplossing.
Aan het einde van deze training zijn de deelnemers in staat om:
- Gebruik Hortonworks om op grote schaal betrouwbaar Hadoop uit te voeren.
- Integreer de beveiligings-, governance- en operationele mogelijkheden van Hadoop met de flexibele analytische workflows van Spark.
- Gebruik Hortonworks om elk van de componenten in een Spark-project te onderzoeken, te valideren, te certificeren en te ondersteunen.
- Verwerk verschillende soorten gegevens, waaronder gestructureerde, ongestructureerde, in-beweging en stilstaande gegevens.
Een Praktische Inleiding tot Streamverwerking
21 UrenIn deze door een instructeur geleide, live training in België (op locatie of op afstand), leren deelnemers hoe ze verschillende Stream Processing raamwerken kunnen opzetten en integreren met bestaande big data-opslagsystemen en gerelateerde softwareapplicaties en microservices.
Aan het einde van deze training kunnen deelnemers:
- Installeer en configureer verschillende Stream Processing frameworks, zoals Spark Streaming en Kafka Streaming.
- Begrijp en selecteer het meest geschikte raamwerk voor de taak.
- Verwerken van gegevens continu, gelijktijdig en record voor record.
- Integreer Stream Processing oplossingen met bestaande databases, datawarehouses, datameren, enz.
- Integreer de meest geschikte bibliotheek voor streamverwerking met bedrijfsapplicaties en microservices.
SMACK Stack voor Data Science
14 UrenDeze door een instructeur geleide, live training (op locatie of op afstand) is gericht op datawetenschappers die de SMACK-stack willen gebruiken om dataverwerkingsplatforms voor big data-oplossingen te bouwen.
Aan het einde van deze training kunnen deelnemers:
- Implementeer een datapijplijnarchitectuur voor het verwerken van big data.
- Ontwikkel een clusterinfrastructuur met Apache Mesos en Docker.
- Analyseer gegevens met Spark en Scala.
- Beheer ongestructureerde gegevens met Apache Cassandra.
Apache Spark Fundamentals
21 UrenDeze instructeur-geleide, live training in België (op locatie of op afstand) is gericht op ingenieurs die een Apache Spark systeem willen opzetten en implementeren voor het verwerken van zeer grote hoeveelheden gegevens.
Aan het einde van deze training kunnen deelnemers:
- Installeer en configureer Apache Spark.
- Verwerk en analyseer snel zeer grote datasets.
- Begrijp het verschil tussen Apache Spark en Hadoop MapReduce en wanneer u welke moet gebruiken.
- Integreer Apache Spark met andere machine learning-tools.
Apache Spark in de Cloud
21 UrenApache Spark leercurve van Apache Spark neemt in het begin langzaam toe, het kost veel inspanning om het eerste rendement te behalen. Deze cursus is bedoeld om door het eerste moeilijke gedeelte te springen. Na het volgen van deze cursus zullen de deelnemers de basisprincipes van Apache Spark begrijpen, ze zullen RDD duidelijk onderscheiden van DataFrame, ze zullen Python en Scala API leren kennen, ze zullen uitvoerders en taken begrijpen, etc. Ook volgens de best practices richt deze cursus zich sterk op cloud-implementatie, Databricks en AWS. De studenten zullen ook de verschillen begrijpen tussen AWS EMR en AWS Glue, een van de nieuwste Spark-services van AWS.
PUBLIEK:
Data Engineer, DevOps , Data Scientist
Spark voor Ontwikkelaars
21 UrenDOELSTELLING:
Deze cursus introduceert Apache Spark . De studenten leren hoe Spark past in het Big Data ecosysteem en hoe Spark gebruikt kan worden voor data-analyse. De cursus behandelt Spark shell voor interactieve gegevensanalyse, Spark internals, Spark API's, Spark SQL , Spark streaming en machine learning en graphX.
PUBLIEK :
Ontwikkelaars / gegevensanalisten
Python en Spark voor Big Data (PySpark)
21 UrenIn deze door een instructeur geleide, live training in België, leren deelnemers hoe ze Python en Spark samen kunnen gebruiken om big data te analyseren terwijl ze werken aan praktische oefeningen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Leer hoe u Spark kunt gebruiken met Python om Big Data te analyseren.
- Werk aan oefeningen die gevallen uit de echte wereld nabootsen.
- Gebruik verschillende tools en technieken voor big data-analyse met behulp van PySpark.
Python, Spark, en Hadoop voor Big Data
21 UrenDeze live training in België onder leiding van een instructeur (online of op locatie) is bedoeld voor ontwikkelaars die Spark, Hadoop en Python willen gebruiken en integreren om grote en complexe datasets te verwerken, analyseren en transformeren.
Aan het einde van deze training zijn de deelnemers in staat om:
- Zet de benodigde omgeving in om te beginnen met het verwerken van big data met Spark, Hadoop en Python.
- Krijg inzicht in de functies, kernonderdelen en architectuur van Spark en Hadoop.
- Leer hoe u Spark, Hadoop en Python kunt integreren voor de verwerking van big data.
- Verken de tools in het Spark-ecosysteem (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka en Flume).
- Bouw gezamenlijke filteraanbevelingssystemen die vergelijkbaar zijn met Netflix, YouTube, Amazon, Spotify en Google.
- Gebruik Apache Mahout om machine learning-algoritmen te schalen.
Apache Spark SQL
7 Uren Spark SQL is de module van Apache Spark voor het werken met gestructureerde en ongestructureerde gegevens. Spark SQL geeft informatie over de structuur van de gegevens en de berekeningen die worden uitgevoerd. Deze informatie kan worden gebruikt om optimalisaties uit te voeren. Twee veel voorkomende toepassingen voor Spark SQL zijn:
- om SQL query's uit te voeren.
- om gegevens van een bestaande Hive installatie te lezen.
In deze door een instructeur geleide, live training (op locatie of op afstand), leren deelnemers hoe ze verschillende soorten gegevenssets kunnen analyseren met Spark SQL .
Aan het einde van deze training kunnen deelnemers:
- Installeer en configureer Spark SQL .
- Voer gegevensanalyse uit met Spark SQL .
- Query-gegevenssets in verschillende indelingen.
- Visualiseer gegevens en queryresultaten.
Indeling van de cursus
- Interactieve lezing en discussie.
- Veel oefeningen en oefenen.
- Praktische implementatie in een live-labomgeving.
Cursusaanpassingsopties
- Neem contact met ons op om een aangepaste training voor deze cursus aan te vragen.
Apache Spark MLlib
35 UrenMLlib is Spark's machine learning (ML) bibliotheek. Het doel is om praktische machine learning schaalbaar en eenvoudig te maken. Het bestaat uit algemene leeralgoritmen en hulpprogramma's, waaronder classificatie, regressie, clustering, collaboratieve filtering, vermindering van de dimensionaliteit, evenals optimalisatieprimitieven op een lager niveau en pijplijn-API's op een hoger niveau.
Het is verdeeld in twee pakketten:
spark.mllib bevat de originele API gebouwd bovenop RDD's.
spark.ml biedt een API op een hoger niveau gebouwd bovenop DataFrames voor het construeren van ML-pijpleidingen.
Publiek
Deze cursus is bedoeld voor ingenieurs en ontwikkelaars die een ingebouwde machinebibliotheek voor Apache Spark
Stratio: Rocket en Intelligence Modules met PySpark
14 UrenStratio is een datacentrisch platform dat big data, AI en governance integreert in één oplossing. De Rocket- en Intelligence-modules maken snelle data-exploratie, transformatie en geavanceerde analyse mogelijk in bedrijfsumgevingen.
Deze door instructeurs geleide, live-training (online of op locatie) is gericht op geavanceerde data-professionals die de Rocket- en Intelligence-modules in Stratio effectief willen gebruiken met PySpark, met focus op lusstructuren, gebruikersgedefinieerde functies en geavanceerde datalogica.
Aan het einde van deze training zullen de deelnemers in staat zijn om:
- Te navigeren en te werken binnen het Stratio-platform met behulp van de Rocket- en Intelligence-modules.
- PySpark toe te passen in de context van data-inname, transformatie en analyse.
- Lussen en conditionele logica te gebruiken om data-workflows en feature-engineeringtaken te besturen.
- Gebruikersgedefinieerde functies (UDFs) te creëren en beheren voor herbruikbare data-operaties in PySpark.
Formaat van de cursus
- Interactieve colleges en discussies.
- Veel oefeningen en praktijk.
- Hands-on implementatie in een live-laboratoriumomgeving.
Opties voor cursusaanpassing
- Voor het aanvragen van een aangepaste training voor deze cursus, neem dan contact met ons op om dit te regelen.