Plan du cours
Module 1 : Python Fondamental pour les Flux de Travail ML
• Lancement du cours et configuration de l'environnement
Alignement des objectifs et mise en place d'un espace de travail reproductible pour le ML en Python
• Les essentiels du langage Python (formation accélérée)
Révision de la syntaxe, du flux de contrôle, des fonctions et des motifs couramment utilisés dans les bases de code ML
• Structures de données pour le ML
Listes, dictionnaires, ensembles et tuples pour les fonctionnalités, les étiquettes et les métadonnées
• Compréhensions et outils fonctionnels
Exprimer des transformations à l'aide de compréhensions et de fonctions d'ordre supérieur
• Python orienté objet pour les développeurs ML
Classes, méthodes, composition et décisions de design pratiques
• dataclasses et modélisation légère
Conteneurs typés pour la configuration, les exemples et les résultats
• Decorateurs et gestionnaires de contexte
Mesure du temps, mise en cache, journalisation et motifs d'exécution sûrs pour les ressources
• Travailler avec des fichiers et des chemins
Gestion robuste des ensembles de données et formats de sérialisation
• Exceptions et programmation défensive
Écrire des scripts ML qui échouent de manière sûre et transparente
• Modules, paquets et structure du projet
Organisation de bases de code ML réutilisables
• Typage et qualité du code
Indices de type, documentation et structure conforme aux normes de lint
Module 2 : NumPy Scientifique, SciPy et Gestion des Données
• Fondations de NumPy pour le calcul vectorisé
Opérations efficaces sur les tableaux et codage conscient des performances
• Indexation, tronçonnage, diffusion et formes
Manipulation sûre des tenseurs et raisonnement sur les formes
• Éléments d'algèbre linéaire avec NumPy et SciPy
Opérations matricielles stables et décompositions utilisées dans le ML
• Approfondissement de SciPy
Statistiques, optimisation, ajustement de courbes et matrices creuses
• Pandas pour les données tabulaires ML
Nettoyage, jointures, agrégations et préparation des ensembles de données
• Approfondissement de scikit-learn
Interface Estimateur, pipelines et flux de travail reproductibles
• Éléments de visualisation
Diagrammes de diagnostic pour l'exploration des données et le comportement des modèles
Module 3 : Motifs de Programmation pour Construire des Applications ML
• Du notebook au projet maintenable
Refactorisation du code exploratoire en paquets structurés
• Gestion de la configuration
Paramètres externalisés et validation au démarrage
• Journalisation, avertissements et observabilité
Journalisation structurée pour des systèmes ML débogables
• Composants réutilisables avec POO et composition
Conception de transformateurs et de prédicteurs extensibles
• Motifs de design pratiques
Motifs Pipeline, Fabrique ou Registre, Stratégie et Adaptateur
• Validation des données et vérifications de schéma
Prévention des problèmes de données silencieux
• Performance et profilage
Identification des goulets d'étranglement et application des techniques d'optimisation
• E/S de modèles et interfaces d'inférence
Persistance sûre et interfaces de prédiction propres
• Construction de bout en bout (mini-projet)
Pipeline ML de style production avec configuration et journalisation
Module 4 : Apprentissage Statistique pour les Données Tabulaires, le Texte et l'Image
• Fondations de l'évaluation
Division entraînement/validation, validation croisée honnête et métriques alignées sur les objectifs business
• ML tabulaire avancé
GLM régularisés, ensembles d'arbres et prétraitement sans fuites de données
• Calibrage et incertitude
Mise à l'échelle de Platt, régression isotonique, bootstrap et prédiction conforme
• Méthodes NLP classiques
Compromis de tokenisation, TF-IDF, modèles linéaires et Bayes naïf
• Modélisation thématique (Topic Modelling)
Fondamentaux de LDA et limites pratiques
• Vision par ordinateur classique
HOG, ACP et pipelines basés sur les caractéristiques
• Analyse des erreurs
Détection des biais, bruit d'étiquette et corrélations spuriées
• Travaux pratiques
Pipeline tabulaire sans fuite de données
Comparaison et interprétation des références textuelles
Référence vision classique avec analyse structurée des échecs
Module 5 : Réseaux Neuronaux pour les Données Tabulaires, le Texte et l'Image
• Maîtrise de la boucle d'entraînement
Boucles PyTorch propres avec AMP, clipping et reproductibilité
• Optimisation et régularisation
Initialisation, normalisation, optimiseurs et planificateurs
• Précision mixte et mise à l'échelle
Accumulation des gradients et stratégies de checkpointing
• Réseaux neuronaux tabulaires
Encodages catégoriels, croisements de fonctionnalités et études d'ablation
• Réseaux neuronaux pour le texte
Encodages, CNN, BiLSTM ou GRU et gestion des séquences
• Réseaux neuronaux pour la vision
Fondamentaux des CNN et architectures de type ResNet
• Travaux pratiques
Cadre d'entraînement réutilisable
Comparaison CNN tabulaire vs boosting
Expériences CNN avec augmentation et planificateurs
Module 6 : Architectures Neuronales Avancées
• Stratégies d'apprentissage par transfert
Motifs de gel et dégel, taux d'apprentissage discriminatifs
• Architectures Transformer pour le texte
Internes de l'auto-attention et approches de fine-tuning
• Backbones de vision et prédiction dense
Concepts ResNet, EfficientNet, Vision Transformers et U-Net
• Architectures tabulaires avancées
TabTransformer, FT-Transformer et réseaux Deep & Cross
• Considérations sur les séries temporelles
Divisions temporelles et détection de dérive des covariables
• Techniques PEFT et d'efficacité
Compromis entre LoRA, distillation et quantisation
• Travaux pratiques
Fine-tuning d'un transformeur textuel pré-entraîné
Fine-tuning d'un modèle visuel pré-entraîné
Comparaison Transformer tabulaire vs GBDT
Module 7 : Systèmes d'IA Générative
• Fondamentaux du prompt engineering
Structuration des prompts et génération contrôlée
• Fondamentaux des LLM
Tokenisation, ajustement sur instructions et atténuation des hallucinations
• Génération Augmentée par Récupération (RAG)
Découpage, encodages, recherche hybride et métriques d'évaluation
• Stratégies de fine-tuning
LoRA et QLoRA avec contrôles de qualité des données
• Modèles de diffusion
Intuition de la diffusion latente et adaptation pratique
• Données tabulaires synthétiques
CTGAN et considérations de confidentialité
• Travaux pratiques
Mini-application RAG de style production
Validation des sorties structurées avec application de schéma
Expérimentation optionnelle sur la diffusion
Module 8 : Agents IA et MCP
• Conception de la boucle agent
Observer, planifier, agir, réfléchir et persister
• Architectures d'agents
ReAct, planifier-exécuter et coordination multi-agents
• Gestion de la mémoire
Approches épisodiques, sémantiques et bloc-notes
• Intégration d'outils et sécurité
Contrats d'outils, sandboxing et défenses contre l'injection de prompts
• Cadres d'évaluation
Traces rejouables, suites de tâches et tests de régression
• Interopérabilité basée sur les protocoles MCP
Conception de serveurs MCP avec exposition sécurisée des outils
• Travaux pratiques
Construire un agent à partir de zéro
Exposer des outils via un serveur de style MCP
Créer un harnais d'évaluation avec contraintes de sécurité
Pré requis
Les participants doivent posséder des connaissances pratiques de la programmation Python.
Ce programme s'adresse aux professionnels techniques de niveau intermédiaire à avancé.
Nos clients témoignent (3)
l'écosystème ML ne concerne pas seulement MLFlow, mais également Optuna, Hyperopt, Docker et Docker-Compose
Guillaume GAUTIER - OLEA MEDICAL
Formation - MLflow
Traduction automatique
La qualité des explications, et le nombre important de sujets abordés
Hugo SECHIER - Expleo France
Formation - Kubeflow on AWS
J'ai beaucoup apprécié de participer à la formation Kubeflow, qui s'est déroulée à distance. Cette formation m'a permis de consolider mes connaissances sur les services AWS, K8s et tous les outils DevOps autour de Kubeflow, qui sont les bases nécessaires pour aborder le sujet correctement. Je tiens à remercier Malawski Marcin pour sa patience et son professionnalisme lors de la formation et pour ses conseils sur les bonnes pratiques. Malawski aborde le sujet sous différents angles, en utilisant divers outils de déploiement comme Ansible, EKS kubectl et Terraform. Je suis maintenant définitivement convaincu que je me dirige vers le bon domaine d'application.
Guillaume Gautier - OLEA MEDICAL | Improved diagnosis for life TM
Formation - Kubeflow
Traduction automatique