Plan du cours
Introduction au Machine Learning
- Types d'apprentissage – supervisé vs non supervisé.
- De l'apprentissage statistique au machine learning.
- Le flux de travail de l'exploration de données : compréhension des besoins métier, préparation des données, modélisation, déploiement.
- Choix du bon algorithme pour la tâche.
- Surencadrement (overfitting) et compromis biais-variance.
Aperçu des bibliothèques Python et ML
- Pourquoi utiliser des langages de programmation pour le ML.
- Choisir entre R et Python.
- Cours intensif Python et Notebooks Jupyter.
- Bibliothèques Python : pandas, NumPy, scikit-learn, matplotlib, seaborn.
Tests et évaluation des algorithmes de ML
- Généralisation, overfitting et validation des modèles.
- Stratégies d'évaluation : validation sur un ensemble de test (holdout), validation croisée, bootstrap.
- Métriques pour la régression : erreur moyenne (ME), erreur quadratique moyenne (MSE), racine de l'erreur quadratique moyenne (RMSE), erreur absolue moyenne en pourcentage (MAPE).
- Métriques pour la classification : précision, matrice de confusion, classes déséquilibrées.
- Visualisation des performances du modèle : courbe de profit, courbe ROC, courbe de levier (lift curve).
- Sélection du modèle et recherche par grille pour le réglage des paramètres.
Préparation des données
- Importation et stockage des données en Python.
- Analyse exploratoire et statistiques descriptives.
- Gestion des valeurs manquantes et des valeurs aberrantes.
- Standardisation, normalisation et transformation.
- Recodage des données qualitatives et manipulation des données avec pandas.
Algorithmes de classification
- Classification binaire vs multi-classes.
- Régression logistique et fonctions discriminantes.
- Naïve Bayes, k-plus proches voisins (k-NN).
- Arbres de décision : CART, forêts aléatoires (Random Forests), Bagging, Boosting, XGBoost.
- Machines à vecteurs de support (SVM) et noyaux.
- Techniques d'apprentissage par ensembles (Ensemble learning).
Régression et prédiction numérique
- Méthode des moindres carrés et sélection des variables.
- Méthodes de régularisation : L1, L2.
- Régression polynomiale et modèles non linéaires.
- Arbres de régression et splines.
Apprentissage non supervisé
- Techniques de clustering : k-means, k-medoids, clustering hiérarchique, cartes auto-organisatrices (SOMs).
- Réduction de dimensionnalité : Analyse en composantes principales (ACP/PCA), analyse factorielle, SVD.
- Scaling multidimensionnel.
Fouille de texte (Text Mining)
- Prétraitement du texte et tokenisation.
- Modèle sac de mots (Bag-of-words), racinisation et lemmatisation.
- Analyse des sentiments et fréquence des mots.
- Visualisation des données textuelles avec des nuages de mots.
Systèmes de recommandation
- Filtrage collaboratif basé sur les utilisateurs et basé sur les articles.
- Conception et évaluation des moteurs de recommandation.
Fouille de motifs d'association
- Ensembles d'éléments fréquents et algorithme Apriori.
- Analyse du panier d'achat et ratio de levier.
Détection des valeurs aberrantes
- Analyse des valeurs extrêmes.
- Méthodes basées sur la distance et la densité.
- Détection des valeurs aberrantes dans les données de haute dimension.
Étude de cas de Machine Learning
- Compréhension du problème métier.
- Prétraitement des données et ingénierie des fonctionnalités (feature engineering).
- Sélection du modèle et réglage des paramètres.
- Évaluation et présentation des résultats.
- Déploiement.
Conclusion et prochaines étapes
Pré requis
- Connaissances de base en statistiques et algèbre linéaire.
- Familiarité avec les concepts d'analyse de données ou de business intelligence.
- Une certaine expérience en programmation (de préférence Python ou R) est recommandée.
- Intérêt pour l'apprentissage du machine learning appliqué aux projets axés sur les données.
Public cible
- Analystes de données et data scientists.
- Statisticiens et professionnels de la recherche.
- Développeurs et professionnels de l'informatique explorant les outils de machine learning.
- Toute personne impliquée dans des projets de science des données ou d'analytique prédictive.
Nos clients témoignent (3)
Même en ayant dû manquer un jour à cause des réunions avec les clients, je me sens beaucoup plus clair sur les processus et techniques utilisés dans l'apprentissage automatique, ainsi que sur le moment où j'opterais pour une approche plutôt qu'une autre. Notre défi maintenant est de mettre en pratique ce que nous avons appris et de commencer à l'appliquer à notre domaine de problème.
Richard Blewett - Rock Solid Knowledge Ltd
Formation - Machine Learning – Data science
Traduction automatique
J'ai apprécié que la formation soit axée sur des exemples et de la programmation. Je pensais qu'il était impossible de condenser autant de contenu en trois jours de formation, mais j'avais tort. La formation a abordé de nombreux sujets et tout a été traité de manière très détaillée (en particulier l'ajustement des paramètres du modèle - je ne m'attendais pas à ce qu'il y ait du temps pour cela et j'ai été agréablement surpris).
Bartosz Rosiek - GE Medical Systems Polska Sp. Zoo
Formation - Machine Learning – Data science
Traduction automatique
Il présente de nombreuses méthodes avec des scripts préparés - des matériaux très bien préparés et faciles à suivre.
Kamila Begej - GE Medical Systems Polska Sp. Zoo
Formation - Machine Learning – Data science
Traduction automatique