Cursusaanbod

Inleiding tot Data Science voor Big Data Analytics

  • Overzicht van Data Science
  • Overzicht van Big Data
  • Data-structuren
  • Motoren en complexiteiten van Big Data
  • Big Data ecosystem en een nieuwe aanpak voor analytics
  • Sleuteltechnologieën in Big Data
  • Data Mining proces en problemen
    • Association Pattern Mining
    • Data Clustering
    • Outlier Detection
    • Data Classificatie

Inleiding tot de Data Analytics levenscyclus

  • Ontdekking
  • Data voorbereiding
  • Modelplanning
  • Modelbouw
  • Presentatie/Communicatie van resultaten
  • Operationele inzet
  • Oefening: Casusstudie

Van dit punt af (80% van de trainingstijd) zal de meeste trainingstijd worden besteed aan voorbeelden en oefeningen in R en gerelateerde big data technologie.

Aan de slag met R

  • Installatie van R en RStudio
  • Kenmerken van de R-taal
  • Objecten in R
  • Data in R
  • Data manipulatie
  • Big data problemen
  • Oefeningen

Aan de slag met Hadoop

  • Installatie van Hadoop
  • Hadoop modi begrijpen
  • HDFS
  • MapReduce architectuur
  • Overzicht van Hadoop gerelateerde projecten
  • Programmeren in Hadoop MapReduce
  • Oefeningen

Integreer R en Hadoop met RHadoop

  • Componenten van RHadoop
  • Installatie van RHadoop en verbinding maken met Hadoop
  • De architectuur van RHadoop
  • Hadoop streaming met R
  • Oplossen van data analytics problemen met RHadoop
  • Oefeningen

Voorbereiding en voorbereiding van data

  • Stappen in data voorbereiding
  • Kenmerk extraheren
  • Data opruimen
  • Data integratie en transformatie
  • Data reductie – sampling, kenmerk subset selectie
  • Dimensionaliteit reductie
  • Discretisatie en binning
  • Oefeningen en casusstudie

Exploratieve data analytische methoden in R

  • Beschrijvende statistiek
  • Exploratieve data analyse
  • Visualisatie – voorafgaande stappen
  • Visualiseren van een enkele variabele
  • Onderzoeken van meerdere variabelen
  • Statistische methoden voor evaluatie
  • Hypothese toetsing
  • Oefeningen en casusstudie

Data Visualisaties

  • Basis visualisaties in R
  • Pakketten voor data visualisatie: ggplot2, lattice, plotly
  • Plots opmaken in R
  • Geavanceerde grafieken
  • Oefeningen

Regressie (Toekomstige waarden schatten)

  • Lineaire regressie
  • Gebruiksgevallen
  • Modelbeschrijving
  • Diagnostiek
  • Problemen met lineaire regressie
  • Shrinkage methoden, ridge regressie, de lasso
  • Generalisaties en nonlineariteit
  • Regressiesplines
  • Lokale polynomiale regressie
  • Generalized additive models
  • Regressie met RHadoop
  • Oefeningen en casusstudie

Classificatie

  • Problemen gerelateerd aan classificatie
  • Bayesiaanse herschepping
  • Naïeve Bayes
  • Logistische regressie
  • K-nearest neighbors
  • Decision tree algoritme
  • Neural networks
  • Support vector machines
  • Diagnostiek van classificators
  • Vergelijking van classificatiemethoden
  • Schaalbare classificatiealgorithmen
  • Oefeningen en casusstudie

Beoordelen van modelprestaties en selectie

  • Bias, Variance en modelcomplexiteit
  • Accuratesse vs. Interpretabiliteit
  • Evaluatie van classificators
  • Maatregelen voor model/algorithme prestaties
  • Hold-out methode van validatie
  • Cross-validatie
  • Afstemmen van machine learning algoritmen met caret pakket
  • Visualiseren van modelprestaties met Profit ROC en Lift curves

Ensemble Methoden

  • Bagging
  • Random Forests
  • Boosting
  • Gradient boosting
  • Oefeningen en casusstudie

Support vector machines voor classificatie en regressie

  • Maximale Margin classificators
    • Support vector classificators
    • Support vector machines
    • SVM’s voor classificatieproblemen
    • SVM’s voor regressieproblemen
  • Oefeningen en casusstudie

Onbekende groeperingen in een dataset identificeren

  • Kenmerk selectie voor clustering
  • Representatieve algoritmen: k-means, k-medoids
  • Hierarchische algoritmen: agglomeratieve en divisieve methoden
  • Probabilistische algoritmen: EM
  • Dichtheidsgebaseerde algoritmen: DBSCAN, DENCLUE
  • Cluster validatie
  • Geavanceerde clusterconcepten
  • Clustering met RHadoop
  • Oefeningen en casusstudie

Verbindingen ontdekken met Link Analyse

  • Link analyse concepten
  • Metriken voor het analyseren van netwerken
  • De Pagerank algoritme
  • Hyperlink-Induced Topic Search
  • Link Voorspelling
  • Oefeningen en casusstudie

Association Pattern Mining

  • Frequent Pattern Mining Model
  • Schaalbaarheid problemen in frequent pattern mining
  • Brute Force algoritmen
  • Apriori algoritme
  • De FP-growth benadering
  • Evaluatie van kandidaten regels
  • Toepassingen van associatieregels
  • Validatie en testen
  • Diagnostiek
  • Association regels met R en Hadoop
  • Oefeningen en casusstudie

Aanmaak van aanbevelingsmotoren

  • Aanbevelingssystemen begrijpen
  • Data mining technieken gebruikt in aanbevelingssystemen
  • Aanbevelingssystemen met recommenderlab pakket
  • Evaluatie van aanbevelingssystemen
  • Aanbevelingen met RHadoop
  • Oefening: Aanmaak van aanbevelingsmotor

Tekstanalyse

  • Stappen in tekstanalyse
  • Verzamelen van ruwe tekst
  • Bag of words
  • Term Frequency – Inverse Document Frequency
  • Sentiment bepalen
  • Oefeningen en casusstudie
 35 Uren

Aantal deelnemers


Prijs Per Deelnemer

Getuigenissen (2)

Voorlopige Aankomende Cursussen

Gerelateerde categorieën