Prenez contact avec nous

Plan du cours

Introduction au Machine Learning

  • Types d'apprentissage – supervisé vs non supervisé.
  • De l'apprentissage statistique au machine learning.
  • Le flux de travail de l'exploration de données : compréhension des besoins métier, préparation des données, modélisation, déploiement.
  • Choix du bon algorithme pour la tâche.
  • Surencadrement (overfitting) et compromis biais-variance.

Aperçu des bibliothèques Python et ML

  • Pourquoi utiliser des langages de programmation pour le ML.
  • Choisir entre R et Python.
  • Cours intensif Python et Notebooks Jupyter.
  • Bibliothèques Python : pandas, NumPy, scikit-learn, matplotlib, seaborn.

Tests et évaluation des algorithmes de ML

  • Généralisation, overfitting et validation des modèles.
  • Stratégies d'évaluation : validation sur un ensemble de test (holdout), validation croisée, bootstrap.
  • Métriques pour la régression : erreur moyenne (ME), erreur quadratique moyenne (MSE), racine de l'erreur quadratique moyenne (RMSE), erreur absolue moyenne en pourcentage (MAPE).
  • Métriques pour la classification : précision, matrice de confusion, classes déséquilibrées.
  • Visualisation des performances du modèle : courbe de profit, courbe ROC, courbe de levier (lift curve).
  • Sélection du modèle et recherche par grille pour le réglage des paramètres.

Préparation des données

  • Importation et stockage des données en Python.
  • Analyse exploratoire et statistiques descriptives.
  • Gestion des valeurs manquantes et des valeurs aberrantes.
  • Standardisation, normalisation et transformation.
  • Recodage des données qualitatives et manipulation des données avec pandas.

Algorithmes de classification

  • Classification binaire vs multi-classes.
  • Régression logistique et fonctions discriminantes.
  • Naïve Bayes, k-plus proches voisins (k-NN).
  • Arbres de décision : CART, forêts aléatoires (Random Forests), Bagging, Boosting, XGBoost.
  • Machines à vecteurs de support (SVM) et noyaux.
  • Techniques d'apprentissage par ensembles (Ensemble learning).

Régression et prédiction numérique

  • Méthode des moindres carrés et sélection des variables.
  • Méthodes de régularisation : L1, L2.
  • Régression polynomiale et modèles non linéaires.
  • Arbres de régression et splines.

Apprentissage non supervisé

  • Techniques de clustering : k-means, k-medoids, clustering hiérarchique, cartes auto-organisatrices (SOMs).
  • Réduction de dimensionnalité : Analyse en composantes principales (ACP/PCA), analyse factorielle, SVD.
  • Scaling multidimensionnel.

Fouille de texte (Text Mining)

  • Prétraitement du texte et tokenisation.
  • Modèle sac de mots (Bag-of-words), racinisation et lemmatisation.
  • Analyse des sentiments et fréquence des mots.
  • Visualisation des données textuelles avec des nuages de mots.

Systèmes de recommandation

  • Filtrage collaboratif basé sur les utilisateurs et basé sur les articles.
  • Conception et évaluation des moteurs de recommandation.

Fouille de motifs d'association

  • Ensembles d'éléments fréquents et algorithme Apriori.
  • Analyse du panier d'achat et ratio de levier.

Détection des valeurs aberrantes

  • Analyse des valeurs extrêmes.
  • Méthodes basées sur la distance et la densité.
  • Détection des valeurs aberrantes dans les données de haute dimension.

Étude de cas de Machine Learning

  • Compréhension du problème métier.
  • Prétraitement des données et ingénierie des fonctionnalités (feature engineering).
  • Sélection du modèle et réglage des paramètres.
  • Évaluation et présentation des résultats.
  • Déploiement.

Conclusion et prochaines étapes

Pré requis

  • Connaissances de base en statistiques et algèbre linéaire.
  • Familiarité avec les concepts d'analyse de données ou de business intelligence.
  • Une certaine expérience en programmation (de préférence Python ou R) est recommandée.
  • Intérêt pour l'apprentissage du machine learning appliqué aux projets axés sur les données.

Public cible

  • Analystes de données et data scientists.
  • Statisticiens et professionnels de la recherche.
  • Développeurs et professionnels de l'informatique explorant les outils de machine learning.
  • Toute personne impliquée dans des projets de science des données ou d'analytique prédictive.
 21 Heures

Nombre de participants


Prix par participant

Nos clients témoignent (3)

Cours à venir

Catégories Similaires