Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Course Outline
Inleiding tot Data Science for Big Data Analytics
- Data Science Overzicht Big Data Overzicht Datastructuren Drijfveren en complexiteiten van Big Data Big Data-ecosysteem en een nieuwe benadering van analyse Sleuteltechnologieën in Big Data Dataminingproces en -problemen Associatiepatroon Mining Dataclustering Uitbijterdetectie Dataclassificatie
Inleiding tot de levenscyclus van Data Analytics
- Ontdekking Gegevensvoorbereiding Modelplanning Modelbouw Presentatie/Communication van de resultaten Operationalisatie Oefening: Case study
Vanaf dit punt zal het grootste deel van de trainingstijd (80%) worden besteed aan voorbeelden en oefeningen in R en gerelateerde big data-technologie.
Aan de slag met R
- R- en Rstudio-functies van de R-taal installeren Objecten in R Gegevens in R Gegevensmanipulatie Big data-problemen Oefeningen
Aan de slag met Hadoop
- Installeren van Hadoop Inzicht in Hadoop modi HDFS MapReduce architectuur Hadoop gerelateerd projectenoverzicht Programma's schrijven in Hadoop MapReduce Oefeningen
R en Hadoop integreren met RHadoop
- Onderdelen van RHadoop RHadoop installeren en verbinden met Hadoop De architectuur van RHadoop Hadoop streamen met R Data-analyse problemen oplossen met RHadoop Oefeningen
Gegevens voorbewerken en voorbereiden
- Stappen voor gegevensvoorbereiding Functie-extractie Gegevens opschonen Gegevensintegratie en transformatie Gegevensreductie – bemonstering, selectie van kenmerksubsets, reductie van dimensionaliteit Discretisatie en binning Oefeningen en casestudy
Verkennende data-analysemethoden in R
- Beschrijvende statistiek Verkennende data-analyse Visualisatie – voorbereidende stappen Visualiseren van een enkele variabele Onderzoeken van meerdere variabelen Statistische methoden voor evaluatie Hypothesetesten Oefeningen en casestudy
Data Visualizations
- Basisvisualisaties in R Pakketten voor datavisualisatie ggplot2, rooster, plotly, rooster Opmaak van plots in R Geavanceerde grafieken Oefeningen
Regressie (toekomstige waarden schatten)
- Lineaire regressie Gebruiksscenario's Modelbeschrijving Diagnostiek Problemen met lineaire regressie Krimpmethoden, ridge-regressie, de lasso Generalisaties en niet-lineariteit Regressiesplines Lokale polynomiale regressie Gegeneraliseerde additieve modellen Regressie met RHadoop Oefeningen en casestudy
Classificatie
- De classificatie-gerelateerde problemen Bayesiaanse opfriscursus Naïeve Bayes Logistieke regressie K-dichtstbijzijnde buren Beslissingsbomen algoritme Neurale netwerken Ondersteuning vectormachines Diagnostiek van classificatoren Vergelijking van classificatiemethoden Scalable classificatie-algoritmen Oefeningen en casestudy
Beoordelen van de prestaties en selectie van modellen
- Bias, variantie en modelcomplexiteit Nauwkeurigheid versus interpreteerbaarheid Classificatoren evalueren Metingen van model-/algoritmeprestaties Hold-out-validatiemethode Kruisvalidatie Machine learning-algoritmen afstemmen met caret-pakket Visualisatie van modelprestaties met Profit ROC en Lift-curves
Ensemble-methoden
- Bagging Random Forests Boosting Gradiëntversterking Oefeningen en casestudy
Ondersteuning van vectormachines voor classificatie en regressie
- Classificatoren voor maximale marge Ondersteun vectorclassificatoren Ondersteun vectormachines SVM's voor classificatieproblemen SVM's voor regressieproblemen
Functieselectie voor clustering Representatieve algoritmen: k-means, k-medoids Hiërarchische algoritmen: agglomeratieve en verdeeldheid zaaiende methoden Probabilistische basisalgoritmen: EM Op dichtheid gebaseerde algoritmen: DBSCAN, DENCLUE Clustervalidatie Geavanceerde clusterconcepten Clusteren met RHadoop Oefeningen en casestudy
- Verbindingen ontdekken met Linkanalyse
Concepten voor linkanalyse Metrieken voor het analyseren van netwerken Het Pagerank-algoritme Hyperlink-geïnduceerd onderwerp Search Linkvoorspellingsoefeningen en casestudy
- Associatiepatroonmijnbouw
Frequent Pattern Mining Model Scalabaarheidsproblemen bij frequente patroonmining Brute Force-algoritmen Apriori-algoritme De FP-groeibenadering Evaluatie van kandidaatregels Toepassingen van associatieregels Validatie en testen Diagnostiek Associatieregels met R en Hadoop Oefeningen en casestudy
- Aanbevelingsmotoren bouwen
Aanbevelingssystemen begrijpen Dataminingtechnieken die worden gebruikt in aanbevelingssystemen Aanbevelingssystemen met het aanbevelingslabpakket De aanbevelingssystemen evalueren Aanbevelingen met RHadoop Oefening: aanbevelingsengine bouwen
- Tekstanalyse
Stappen voor tekstanalyse Ruwe tekst verzamelen Zak met woorden Termfrequentie – omgekeerde documentfrequentie Sentimenten bepalen Oefeningen en casestudy
35 Hours
Getuigenissen (2)
Intensity, Training materials and expertise, Clarity, Excellent communication with Alessandra
Marija Hornis Dmitrovic - Marija Hornis
Cursus - Data Science for Big Data Analytics
The example and training material were sufficient and made it easy to understand what you are doing