Bedankt voor uw aanvraag! Een van onze medewerkers neemt binnenkort contact met u op
Bedankt voor uw boeking! Een van onze medewerkers neemt binnenkort contact met u op.
Cursusaanbod
Inleiding tot Data Science voor Big Data Analytics
- Overzicht van Data Science
- Overzicht van Big Data
- Data-structuren
- Motoren en complexiteiten van Big Data
- Big Data ecosystem en een nieuwe aanpak voor analytics
- Sleuteltechnologieën in Big Data
- Data Mining proces en problemen
- Association Pattern Mining
- Data Clustering
- Outlier Detection
- Data Classificatie
Inleiding tot de Data Analytics levenscyclus
- Ontdekking
- Data voorbereiding
- Modelplanning
- Modelbouw
- Presentatie/Communicatie van resultaten
- Operationele inzet
- Oefening: Casusstudie
Van dit punt af (80% van de trainingstijd) zal de meeste trainingstijd worden besteed aan voorbeelden en oefeningen in R en gerelateerde big data technologie.
Aan de slag met R
- Installatie van R en RStudio
- Kenmerken van de R-taal
- Objecten in R
- Data in R
- Data manipulatie
- Big data problemen
- Oefeningen
Aan de slag met Hadoop
- Installatie van Hadoop
- Hadoop modi begrijpen
- HDFS
- MapReduce architectuur
- Overzicht van Hadoop gerelateerde projecten
- Programmeren in Hadoop MapReduce
- Oefeningen
Integreer R en Hadoop met RHadoop
- Componenten van RHadoop
- Installatie van RHadoop en verbinding maken met Hadoop
- De architectuur van RHadoop
- Hadoop streaming met R
- Oplossen van data analytics problemen met RHadoop
- Oefeningen
Voorbereiding en voorbereiding van data
- Stappen in data voorbereiding
- Kenmerk extraheren
- Data opruimen
- Data integratie en transformatie
- Data reductie – sampling, kenmerk subset selectie
- Dimensionaliteit reductie
- Discretisatie en binning
- Oefeningen en casusstudie
Exploratieve data analytische methoden in R
- Beschrijvende statistiek
- Exploratieve data analyse
- Visualisatie – voorafgaande stappen
- Visualiseren van een enkele variabele
- Onderzoeken van meerdere variabelen
- Statistische methoden voor evaluatie
- Hypothese toetsing
- Oefeningen en casusstudie
Data Visualisaties
- Basis visualisaties in R
- Pakketten voor data visualisatie: ggplot2, lattice, plotly
- Plots opmaken in R
- Geavanceerde grafieken
- Oefeningen
Regressie (Toekomstige waarden schatten)
- Lineaire regressie
- Gebruiksgevallen
- Modelbeschrijving
- Diagnostiek
- Problemen met lineaire regressie
- Shrinkage methoden, ridge regressie, de lasso
- Generalisaties en nonlineariteit
- Regressiesplines
- Lokale polynomiale regressie
- Generalized additive models
- Regressie met RHadoop
- Oefeningen en casusstudie
Classificatie
- Problemen gerelateerd aan classificatie
- Bayesiaanse herschepping
- Naïeve Bayes
- Logistische regressie
- K-nearest neighbors
- Decision tree algoritme
- Neural networks
- Support vector machines
- Diagnostiek van classificators
- Vergelijking van classificatiemethoden
- Schaalbare classificatiealgorithmen
- Oefeningen en casusstudie
Beoordelen van modelprestaties en selectie
- Bias, Variance en modelcomplexiteit
- Accuratesse vs. Interpretabiliteit
- Evaluatie van classificators
- Maatregelen voor model/algorithme prestaties
- Hold-out methode van validatie
- Cross-validatie
- Afstemmen van machine learning algoritmen met caret pakket
- Visualiseren van modelprestaties met Profit ROC en Lift curves
Ensemble Methoden
- Bagging
- Random Forests
- Boosting
- Gradient boosting
- Oefeningen en casusstudie
Support vector machines voor classificatie en regressie
- Maximale Margin classificators
- Support vector classificators
- Support vector machines
- SVM’s voor classificatieproblemen
- SVM’s voor regressieproblemen
- Oefeningen en casusstudie
Onbekende groeperingen in een dataset identificeren
- Kenmerk selectie voor clustering
- Representatieve algoritmen: k-means, k-medoids
- Hierarchische algoritmen: agglomeratieve en divisieve methoden
- Probabilistische algoritmen: EM
- Dichtheidsgebaseerde algoritmen: DBSCAN, DENCLUE
- Cluster validatie
- Geavanceerde clusterconcepten
- Clustering met RHadoop
- Oefeningen en casusstudie
Verbindingen ontdekken met Link Analyse
- Link analyse concepten
- Metriken voor het analyseren van netwerken
- De Pagerank algoritme
- Hyperlink-Induced Topic Search
- Link Voorspelling
- Oefeningen en casusstudie
Association Pattern Mining
- Frequent Pattern Mining Model
- Schaalbaarheid problemen in frequent pattern mining
- Brute Force algoritmen
- Apriori algoritme
- De FP-growth benadering
- Evaluatie van kandidaten regels
- Toepassingen van associatieregels
- Validatie en testen
- Diagnostiek
- Association regels met R en Hadoop
- Oefeningen en casusstudie
Aanmaak van aanbevelingsmotoren
- Aanbevelingssystemen begrijpen
- Data mining technieken gebruikt in aanbevelingssystemen
- Aanbevelingssystemen met recommenderlab pakket
- Evaluatie van aanbevelingssystemen
- Aanbevelingen met RHadoop
- Oefening: Aanmaak van aanbevelingsmotor
Tekstanalyse
- Stappen in tekstanalyse
- Verzamelen van ruwe tekst
- Bag of words
- Term Frequency – Inverse Document Frequency
- Sentiment bepalen
- Oefeningen en casusstudie
35 Uren
Getuigenissen (2)
Intensiteit, opleidingsmateriaal en expertise, helderheid, Excellente communicatie met Alessandra
Marija Hornis Dmitrovic - Marija Hornis
Cursus - Data Science for Big Data Analytics
Automatisch vertaald
The example and training material were sufficient and made it easy to understand what you are doing.
Teboho Makenete
Cursus - Data Science for Big Data Analytics
Automatisch vertaald