Plan du cours

Introduction

  • Le processus de la Science des Données
  • Rôles et responsabilités d'un Data Scientist

Préparation de l'environnement de développement

  • Bibliothèques, frameworks, langages et outils
  • Développement local
  • Développement collaboratif en ligne

Collecte de données

  • Différents types de données
    • Structurées
      • Bases de données locales
      • Connecteurs de base de données
      • Formats courants : xlxs, XML, Json, csv, ...
    • Non structurées
      • Clics, capteurs, smartphones
      • APIs
      • Internet des Objets (IoT)
      • Documents, images, vidéos, sons
  • Étude de cas : Collecte de grandes quantités de données non structurées de manière continue

Stockage des données

  • Bases de données relationnelles
  • Bases de données non relationnelles
  • Hadoop : Système de fichiers distribué (HDFS)
  • Spark : Jeu de données distribués résilient (RDD)
  • Stockage cloud

Préparation des données

  • Ingestion, sélection, nettoyage et transformation
  • Assurer la qualité des données - exactitude, pertinence et sécurité
  • Rapports d'exception

Langages utilisés pour la préparation, le traitement et l'analyse

  • Langage R
    • Introduction à R
    • Manipulation des données, calculs et affichage graphique
  • Python
    • Introduction à Python
    • Manipulation, traitement, nettoyage et analyse des données

Analyse de données

  • Analyse exploratoire
    • Statistiques de base
    • Visualisations préliminaires
    • Comprendre les données
  • Causalité
  • Caractéristiques et transformations
  • Apprentissage automatique (Machine Learning)
    • Supervisé vs non supervisé
    • Quand utiliser quel modèle
  • Traitement du langage naturel (NLP)

Visualisation des données

  • Bonnes pratiques
  • Sélectionner le bon graphique pour les bonnes données
  • Palettes de couleurs
  • Aller plus loin
    • Tableaux de bord
    • Visualisations interactives
  • Raconter une histoire avec les données

Conclusion et résumé

Pré requis

  • Une compréhension générale des concepts de base des bases de données
  • Une connaissance de base des statistiques
 35 Heures

Nombre de participants


Prix ​​par Participant

Nos clients témoignent (2)

Cours à venir

Catégories Similaires