Plan du cours

Introduction

  • Le processus Data Science
  • Rôles et responsabilités d'un Data Scientist

Préparation de l'environnement de développement

  • Bibliothèques, frameworks, langages et outils
  • Développement local
  • Développement collaboratif sur le web

Collecte des données

  • Différents types de données
    • Structurées
      • Bases de données locales
      • Connecteurs Database
      • Formats courants : xlxs, XML, Json, csv, ...
    • Non structuré
      • Clics, censeurs, smartphones
      • API
      • Internet of Things (IoT)
      • Documents, images, vidéos, sons
  • Étude de cas : Collecte continue de grandes quantités de données non structurées

Stockage des données

  • Bases de données relationnelles
  • Bases de données non relationnelles
  • Hadoop : Système de fichiers distribués (HDFS)
  • Spark : Resilient Distributed Dataset (RDD) (ensemble de données distribuées résilientes)
  • Stockage en nuage

Préparation des données

  • Ingestion, sélection, nettoyage et transformation
  • Garantir la qualité des données - exactitude, pertinence et sécurité
  • Rapports d'exception

Les Languages utilisés pour la préparation, le traitement et l'analyse des données

  • Langage R
    • Introduction à R
    • Manipulation des données, calcul et affichage graphique
  • Python
    • Introduction à Python
    • Manipulation, traitement, nettoyage et analyse de données

Analyse des données

  • Analyse exploratoire
    • Statistiques de base
    • Ébauche de visualisation
    • Comprendre les données
  • Causalité
  • Caractéristiques et transformations
  • Machine Learning
    • Supervisé ou non supervisé
    • Quand utiliser quel modèle ?
  • Natural Language Processing (NLP)

Data Visualization

  • Meilleures pratiques
  • Choisir le bon graphique pour les bonnes données
  • Palettes de couleurs
  • Passer au niveau supérieur
    • Tableaux de bord
    • Visualisations interactives
  • Raconter une histoire avec des données

Résumé et conclusion

Pré requis

  • Une compréhension générale des concepts de base de données
  • Une compréhension de base des statistiques
 35 heures

Nombre de participants


Prix par participant

Nos clients témoignent (2)

Cours à venir

Catégories Similaires