Course Outline
Introductie
- Inzicht in het belang van datavoorbereiding in analytics en machine learning
- Pijplijn voor gegevensvoorbereiding en de rol ervan in de levenscyclus van gegevens
- Onderzoek naar gemeenschappelijke uitdagingen op het gebied van ruwe data en de impact op analyse
Gegevensverzameling en -acquisitie
- Gegevensbronnen: databases, API's, spreadsheets, tekstbestanden en meer
- Technieken voor het verzamelen van gegevens en het waarborgen van de kwaliteit van gegevens tijdens het verzamelen
- Verzamelen van gegevens uit verschillende bronnen
Data Cleaning Technieken
- Identificeren en afhandelen van ontbrekende waarden, uitschieters en inconsistenties
- Omgaan met duplicaten en fouten in de dataset
- Echte datasets opschonen
Datatransformatie en standaardisatie
- Technieken voor gegevensnormalisatie en standaardisatie
- Categorische gegevensverwerking: codering, binning en feature engineering
- Ruwe data omzetten in bruikbare formaten
Data Integration en aggregatie
- Samenvoegen en combineren van datasets uit verschillende bronnen
- Gegevensconflicten oplossen en gegevenstypen op elkaar afstemmen
- Technieken voor gegevensaggregatie en -consolidatie
Data Quality Zekerheid
- Methoden om de kwaliteit en integriteit van gegevens gedurende het hele proces te waarborgen
- Implementeren van kwaliteitscontroles en validatieprocedures
- Casestudy's en praktische toepassingen van datakwaliteitsborging
Dimensionaliteitsreductie en functieselectie
- Inzicht in de noodzaak van dimensionaliteitsreductie
- Technieken zoals PCA, functieselectie en reductiestrategieën
- Implementatie van technieken voor het verminderen van dimensionaliteit
Samenvatting en volgende stappen
Requirements
- Basiskennis van dataconcepten
Publiek
- Data-analisten Database beheerders IT-professionals
Getuigenissen (5)
Carole Roux - INRAE
Cursus - EBX5 for Developers
The variety of the information shared and the clarity to explain terms in plain English.
Arisbe Mendoza - Fairtrade International
Cursus - GDPR Workshop
Kennis, voorbeeldige opleiding
Krzysztof Kantorski - Santander
Cursus - Oracle GoldenGate
Machine Translated
It's a hands-on session.
Vorraluck Sarechuer - Total Access Communication Public Company Limited (dtac)
Cursus - Talend Open Studio for ESB
Het vermogen om op een 1:1-basis te communiceren en ervoor te zorgen dat ik duidelijkheid en begrip had over de besproken concepten.
Dave - Sea
Cursus - Data Architecture Fundamentals
Machine Translated