SMACK Stack for Data Science Training Cursus
SMACK is een verzameling van gegevensplatformsoftware, namelijk Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, en Apache Kafka. Met behulp van de SMACK stack kunnen gebruikers gegevensverwerkingsplatforms creëren en scalen.
Deze instructeur geleide, live training (online of on-site) is gericht op data wetenschappers die de SMACK stack willen gebruiken om gegevensverwerkingsplatforms voor big data oplossingen te bouwen.
Aan het einde van deze training zullen de deelnemers in staat zijn:
- Het implementeren van een data pipeline architectuur voor het verwerken van grote gegevens.
- Ontwikkel een clusterinfrastructuur met Apache Mesos en Docker.
- Analyseer gegevens met Spark en Scala.
- Het beheer van onstructureerde gegevens met Apache Cassandra.
Format van de cursus
- Interactieve lezingen en discussie.
- Veel oefeningen en oefeningen.
- Hand-on implementatie in een live-lab-omgeving.
Cursus aanpassingsopties
- Om een aangepaste training voor deze cursus te vragen, neem dan contact met ons op om te organiseren.
Cursusaanbod
Introductie
Overzicht SMACK Stack
- Wat is Apache Spark? Apache Spark Kenmerken
- Wat is Apache Mesos? Apache Mesos Kenmerken
- Wat is Apache Akka? Apache Akka kenmerken
- Wat is Apache Cassandra? Apache Cassandra kenmerken
- Wat is Apache Kafka? Apache Kafka Kenmerken
Scala Taal
- Scala Syntaxis en structuur
- Scala Regelstroom
Voorbereiding van de ontwikkelingsomgeving
- De SMACK-stack installeren en configureren
- Installeren en configureren Docker
Apache Akka
- Acteurs gebruiken
Apache Cassandra
- Een database maken voor leesbewerkingen
- Werken met back-ups en herstel
Verbindingslijnen
- Een stream maken
- Een Akka-toepassing bouwen
- Gegevens opslaan met Cassandra
- Connectoren beoordelen
Apache Kafka
- Werken met clusters
- Berichten maken, publiceren en consumeren
Apache Mesos
- Toewijzing van middelen
- Clusters uitvoeren
- Werken met Apache Aurora en Docker
- Diensten en taken uitvoeren
- Spark, Cassandra en Kafka inzetten op Mesos
Apache Spark
- Gegevensstromen beheren
- Werken met RDD's en dataframes
- Uitvoeren van data-analyse
Probleemoplossing
- Afhandeling van uitval van services en fouten
Samenvatting en conclusie
Vereisten
- Inzicht in gegevensverwerkingssystemen
Publiek
- Datawetenschappers
Voor open trainingen is een minimum aantal van 5 deelnemers vereist
SMACK Stack for Data Science Training Cursus - Booking
SMACK Stack for Data Science Training Cursus - Enquiry
SMACK Stack for Data Science - Consultancyaanvraag
Consultancyaanvraag
Testimonials (1)
Heel interactief...
Richard Langford
Cursus - SMACK Stack for Data Science
Automatisch vertaald
Voorlopige Aankomende Cursussen
Gerelateerde cursussen
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 UrenDeze cursus is bedoeld voor ontwikkelaars en datawetenschappers die AI willen begrijpen en implementeren in hun toepassingen. Er wordt speciale aandacht besteed aan data-analyse, gedistribueerde kunstmatige intelligentie en natuurlijke taalverwerking.
Anaconda Ecosystem for Data Scientists
14 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) is bedoeld voor datawetenschappers die het Anaconda-ecosysteem willen gebruiken om pakketten en workflows voor gegevensanalyse vast te leggen, te beheren en te implementeren in één enkel platform.
Aan het einde van deze training zijn de deelnemers in staat om:
- Installeer en configureer Anaconda componenten en bibliotheken.
- Begrijp de kernconcepten, kenmerken en voordelen van Anaconda.
- Beheer pakketten, omgevingen en kanalen met behulp van Anaconda Navigator.
- Gebruik Conda-, R- en Python-pakketten voor datawetenschap en machine learning.
- Maak kennis met enkele praktische use cases en technieken voor het beheren van meerdere data-omgevingen.
Big Data Business Intelligence for Telecom and Communication Service Providers
35 UrenOverzicht
Communications service providers (CSP) worden geconfronteerd met druk om kosten te verminderen en gemiddelde inkomsten per gebruiker (ARPU) te maximaliseren, terwijl een uitstekende klantervaring wordt gewaarborgd, maar gegevensvolumes blijven groeien. Het wereldwijde mobiele gegevensverkeer zal groeien bij een gecombineerde jaarlijkse groei (CAGR) van 78 procent tegen 2016, tot 10,8 exabytes per maand.
Ondertussen genereren CSP's grote hoeveelheden gegevens, waaronder call details records (CDR), netwerkgegevens en klantgegevens. Bedrijven die deze gegevens volledig exploiteren, krijgen een concurrentievoordeel. Volgens een recente enquête van The Economist Intelligence Unit, bedrijven die gebruik maken van data-gerichte besluitvorming genieten een 5-6% boost in productiviteit. Maar 53% van de bedrijven gebruikt slechts de helft van hun waardevolle gegevens, en een kwart van de respondenten merkte op dat enorme hoeveelheden nuttige gegevens niet worden vervuld. De gegevensvolumes zijn zo hoog dat handmatige analyse onmogelijk is, en de meeste erfgoedsoftware-systemen kunnen niet ophouden, wat resulteert in waardevolle gegevens die worden weggegooid of verwaarloosd.
Met Big Data & Analytics’ high-speed, scalable big data software, CSP's kunnen al hun gegevens mineren voor betere besluitvorming in minder tijd. Verschillende Big Data producten en technieken bieden een end-to-end softwareplatform voor het verzamelen, voorbereiden, analyseren en presenteren van inzichten uit grote gegevens. De toepassingsgebieden omvatten netwerkprestaties monitoring, fraude detectie, klantchurns detectie en kredietrisico-analyse. Big Data & Analytics producten schaal om terabytes van gegevens te beheren, maar de implementatie van dergelijke tools vereist een nieuwe vorm van cloud-gebaseerde database systeem zoals Hadoop of massieve schaal parallelle computing processor (KPU etc.)
Deze cursus werkt op Big Data BI voor Telco omvat alle opkomende nieuwe gebieden waarin CSP's investeren om productiviteit te vergroten en nieuwe bedrijfsinkomsten te openen. De cursus biedt een volledige 360 graden overzicht op Big Data BI in Telco zodat besluitvormers en managers een zeer brede en uitgebreide overzicht van de mogelijkheden van Big Data BI in Telco voor productiviteit en inkomen winst.
Cursus doelstellingen
Het belangrijkste doel van de cursus is om nieuwe Big Data business intelligence technieken te introduceren in 4 sectoren van Telecom Business (Marketing/Sales, Network Operation, Financial Operation en Customer Relation Management). Studenten worden geïntroduceerd om te volgen:
- Introductie tot Big Data-wat is 4Vs (volume, snelheid, variëteit en waarheid) in Big Data- Generatie, extractie en beheer vanuit Telco perspectief
- Hoe Big Data analytic verschilt van legacy data analytic
- In-house rechtvaardiging van Big Data -Telco perspectief
- Introductie tot Hadoop Ecosystem- bekendheid met alle Hadoop tools zoals Hive, Pig, SPARC – wanneer en hoe ze worden gebruikt om het probleem op te lossen Big Data
- Hoe Big Data wordt verkregen om te analyseren voor analyse tool-hoe Business Analysis’s kunnen hun pijnpunten van het verzamelen en analyseren van gegevens door middel van geïntegreerde Hadoop dashboard benadering te verminderen
- Basiskennis van Insight-analyse, visualisatie-analyse en predictieve analyse voor Telco
- Customer Churn-analyse en Big Data-how Big Data-analyse kunnen klantchurn en klantongeluk verminderen in Telco-case studies
- Analyse van netwerkfalen en servicefalen van netwerkmetadata en IPDR
- Financiële analyse-fraude, wastage en ROI-schatting uit verkoop- en operationele gegevens
- Customer acquisition problem-Target marketing, klantsegmentatie en cross-sales van verkoopgegevens
- Introductie en samenvatting van alle Big Data analytische producten en waar ze passen in de analytische ruimte van Telco
- Conclusie - hoe stap voor stap een benadering te nemen om Big Data Business Intelligence in uw organisatie te introduceren
Gericht publiek
- Netwerkbeheer, Financieel Manager, CRM-managers en top IT-managers in Telco CIO-kantoor.
- Business Analisten in Telco
- CFO kantoormanagers / analisten
- Operatieve managers
- QA Managers
Data Science Programme
245 UrenDe explosie van informatie en data in de wereld van vandaag is ongeëvenaard; ons vermogen om te innoveren en de grenzen van het mogelijke te verleggen groeit sneller dan ooit tevoren. De rol van Data Scientist is tegenwoordig een van de meest gevraagde vaardigheden in de industrie.
Wij bieden veel meer dan leren via theorie; wij leveren praktische, verkoopbare vaardigheden die de kloof overbruggen tussen de wereld van de academische wereld en de eisen van de industrie.
Dit curriculum van 7 weken kan worden afgestemd op uw specifieke branchevereisten. Neem contact met ons op voor meer informatie of bezoek de website van het Nobleprog Instituut
Publiek:
Dit programma is bedoeld voor afgestudeerden op postniveau en voor iedereen met de vereiste vereiste vaardigheden, die zullen worden bepaald door een beoordeling en een interview.
Levering:
De cursus wordt gegeven een mix van Instructor Led Classroom en Instructor Led Online; normaal gesproken zal de eerste week 'klassikaal geleid' zijn, weken 2 - 6 'virtueel klaslokaal' en week 7 terug naar 'klassikaal geleid'.
Data Science for Big Data Analytics
35 UrenBig data zijn datasets die zo omvangrijk en complex zijn dat traditionele applicatiesoftware voor gegevensverwerking onvoldoende is om hiermee om te gaan. Big data-uitdagingen zijn onder meer het vastleggen van gegevens, gegevensopslag, gegevensanalyse, zoeken, delen, overdragen, visualiseren, opvragen, bijwerken en informatieprivacy.
Introduction to Graph Computing
28 UrenIn deze door een instructeur geleide, live training in België, leren deelnemers over het technologieaanbod en de implementatiebenaderingen voor het verwerken van grafiekgegevens. Het doel is om objecten uit de echte wereld, hun kenmerken en relaties te identificeren, deze relaties vervolgens te modelleren en ze als gegevens te verwerken met behulp van een Graph Computing (ook bekend als Graph Analytics) benadering. We beginnen met een breed overzicht en beperken ons tot specifieke tools terwijl we een reeks casestudy's, hands-on oefeningen en live implementaties doorlopen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Begrijp hoe grafiekgegevens worden bewaard en doorkruist.
- Selecteer het beste framework voor een bepaalde taak (van graph databases tot batch processing frameworks).
- Implementeer Hadoop, Spark, GraphX en Pregel om grafiekberekeningen op veel machines parallel uit te voeren.
- Bekijk real-world big data-problemen in termen van grafieken, processen en traversals.
Jupyter for Data Science Teams
7 UrenThis instructor-led, live training in België (online or onsite) introduces the idea of collaborative development in data science and demonstrates how to use Jupyter to track and participate as a team in the "life cycle of a computational idea". It walks participants through the creation of a sample data science project based on top of the Jupyter ecosystem.
By the end of this training, participants will be able to:
- Install and configure Jupyter, including the creation and integration of a team repository on Git.
- Use Jupyter features such as extensions, interactive widgets, multiuser mode and more to enable project collaboraton.
- Create, share and organize Jupyter Notebooks with team members.
- Choose from Scala, Python, R, to write and execute code against big data systems such as Apache Spark, all through the Jupyter interface.
Kaggle
14 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) is bedoeld voor datawetenschappers en -ontwikkelaars die willen leren en hun carrière willen opbouwen in Data Science met behulp van Kaggle.
Aan het einde van deze training zijn de deelnemers in staat om:
- Meer informatie over datawetenschap en machine learning.
- Verken data-analyse.
- Lees meer over Kaggle en hoe het werkt.
MATLAB Fundamentals, Data Science & Report Generation
35 UrenIn het eerste deel van deze training behandelen we de basisprincipes van MATLAB en de functie ervan als zowel een taal als een platform. In deze discussie is een inleiding opgenomen in MATLAB syntaxis, arrays en matrices, datavisualisatie, scriptontwikkeling en objectgeoriënteerde principes.
In het tweede deel laten we zien hoe je MATLAB kunt gebruiken voor datamining, machine learning en voorspellende analyses. Om deelnemers een duidelijk en praktisch perspectief te geven op de aanpak en kracht van MATLAB, maken we vergelijkingen tussen het gebruik van MATLAB en het gebruik van andere tools zoals spreadsheets, C, C++ en Visual Basic.
In het derde deel van de training leren deelnemers hoe ze hun werk kunnen stroomlijnen door hun gegevensverwerking en het genereren van rapporten te automatiseren.
Tijdens de cursus zullen de deelnemers de geleerde ideeën in de praktijk brengen door middel van praktische oefeningen in een laboratoriumomgeving. Aan het einde van de training hebben de deelnemers een grondig begrip van de capaciteiten van MATLAB en kunnen ze deze gebruiken voor het oplossen van real-world data science-problemen en voor het stroomlijnen van hun werk door middel van automatisering.
Tijdens de cursus zullen beoordelingen worden uitgevoerd om de voortgang te meten.
Opzet van de cursus
- De cursus omvat theoretische en praktische oefeningen, waaronder casusbesprekingen, inspectie van voorbeeldcodes en praktische implementatie.
Notitie
- Oefensessies zijn gebaseerd op vooraf afgesproken voorbeeldgegevensrapportsjablonen. Als u specifieke wensen heeft, neem dan contact met ons op om dit te regelen.
Accelerating Python Pandas Workflows with Modin
14 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) is bedoeld voor datawetenschappers en -ontwikkelaars die Modin willen gebruiken om parallelle berekeningen te bouwen en te implementeren met Pandas voor snellere data-analyse.
Aan het einde van deze training zijn de deelnemers in staat om:
- Zet de benodigde omgeving op om te beginnen met het ontwikkelen van Pandas workflows op schaal met Modin.
- Begrijp de functies, architectuur en voordelen van Modin.
- Ken de verschillen tussen Modin, Dask en Ray.
- Voer Pandas bewerkingen sneller uit met Modin.
- Implementeer de volledige Pandas API en functies.
Python Programming for Finance
35 UrenPython is een programmeertaal die enorm populair is geworden in de financiële sector. Aangenomen door de grootste investeringsbanken en hedgefondsen, wordt het gebruikt om een breed scala aan financiële toepassingen te bouwen, variërend van kernhandelsprogramma's tot risicobeheersystemen.
In deze door een instructeur geleide, live training leren deelnemers hoe ze Python kunnen gebruiken om praktische toepassingen te ontwikkelen voor het oplossen van een aantal specifieke financiële problemen.
Aan het einde van deze training kunnen deelnemers:
- De basisbeginselen van de Python programmeertaal begrijpen
- De beste ontwikkeltools downloaden, installeren en onderhouden voor het maken van financiële applicaties in Python
- De meest geschikte Python pakketten en programmeertechnieken selecteren en gebruiken om financiële gegevens uit verschillende bronnen (CSV, Excel, databases, web, etc.) te organiseren, visualiseren en analyseren
- Applicaties bouwen die problemen oplossen gerelateerd aan asset allocatie, risicoanalyse, investeringsprestaties en meer
- Een Python applicatie troubleshooten, integreren, implementeren en optimaliseren
Publiek
- Ontwikkelaars
- Analisten
- Quants
Formaat van de cursus
- Deels hoorcollege, deels discussie, oefeningen en veel praktische toepassing
Notitie
- Deze training heeft als doel oplossingen te bieden voor enkele van de belangrijkste problemen waarmee financiële professionals worden geconfronteerd. Als u echter een specifiek onderwerp, tool of techniek heeft waarop u verder wilt ingaan, neem dan contact met ons op om dit te regelen.
GPU Data Science with NVIDIA RAPIDS
14 UrenDeze live training onder leiding van een instructeur in België (online of ter plaatse) is bedoeld voor datawetenschappers en -ontwikkelaars die RAPIDS willen gebruiken om GPU-versnelde datapijplijnen, workflows en visualisaties te bouwen, waarbij machine learning-algoritmen worden toegepast, zoals XGBoost, cuML, enz.
Aan het einde van deze training zijn de deelnemers in staat om:
- Zet de benodigde ontwikkelomgeving op om datamodellen te bouwen met NVIDIA RAPIDS.
- Begrijp de kenmerken, componenten en voordelen van RAPIDS.
- Maak gebruik van GPUs om end-to-end data- en analysepijplijnen te versnellen.
- Implementeer GPU-versnelde gegevensvoorbereiding en ETL met cuDF en Apache Arrow.
- Leer hoe u machine learning-taken uitvoert met XGBoost- en cuML-algoritmen.
- Bouw datavisualisaties en voer grafiekanalyses uit met cuXfilter en cuGraph.
Python and Spark for Big Data (PySpark)
21 UrenIn deze door een instructeur geleide, live training in België, leren deelnemers hoe ze Python en Spark samen kunnen gebruiken om big data te analyseren terwijl ze werken aan praktische oefeningen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Leer hoe u Spark kunt gebruiken met Python om Big Data te analyseren.
- Werk aan oefeningen die gevallen uit de echte wereld nabootsen.
- Gebruik verschillende tools en technieken voor big data-analyse met behulp van PySpark.
Apache Spark MLlib
35 UrenMLlib is Spark's machine learning (ML) bibliotheek. Het doel is om praktische machine learning schaalbaar en eenvoudig te maken. Het bestaat uit algemene leeralgoritmen en hulpprogramma's, waaronder classificatie, regressie, clustering, collaboratieve filtering, vermindering van de dimensionaliteit, evenals optimalisatieprimitieven op een lager niveau en pijplijn-API's op een hoger niveau.
Het is verdeeld in twee pakketten:
spark.mllib bevat de originele API gebouwd bovenop RDD's.
spark.ml biedt een API op een hoger niveau gebouwd bovenop DataFrames voor het construeren van ML-pijpleidingen.
Publiek
Deze cursus is bedoeld voor ingenieurs en ontwikkelaars die een ingebouwde machinebibliotheek voor Apache Spark
Data Science: Analysis and Presentation
7 UrenDe geïntegreerde omgeving van het Wolfram-systeem maakt het een efficiënt hulpmiddel voor zowel het analyseren als het presenteren van gegevens. Deze cursus behandelt aspecten van de Wolfram taal die relevant zijn voor analyse, waaronder statistische berekeningen, visualisatie, het importeren en exporteren van gegevens en het automatisch genereren van rapporten.