Plan du cours
1. Introduction à l'apprentissage par renforcement profond
- Qu'est-ce que l'apprentissage par renforcement ?
- Différences entre l'apprentissage supervisé, non supervisé et par renforcement
- Applications du DRL en 2025 (robotique, santé, finance, logistique)
- Compréhension de la boucle d'interaction agent-environnement
2. Fondamentaux de l'apprentissage par renforcement
- Processus de décision de Markov (MDP)
- États, actions, récompenses, politiques et fonctions de valeur
- Arbitrage entre exploration et exploitation
- Méthodes Monte Carlo et apprentissage par différence temporelle (TD)
3. Implémentation des algorithmes de base d'apprentissage par renforcement
- Méthodes tabulaires : programmation dynamique, évaluation des politiques et itération
- Apprentissage Q et SARSA
- Exploration epsilon-greedy et stratégies de décroissance
- Implémentation d'environnements RL avec OpenAI Gymnasium
4. Transition vers l'apprentissage par renforcement profond
- Limitations des méthodes tabulaires
- Utilisation de réseaux de neurones pour l'approximation de fonctions
- Architecture et flux de travail du Deep Q-Network (DQN)
- Mémoire d'expérience et réseaux cibles
5. Algorithmes avancés de DRL
- Double DQN, Dueling DQN et expérience prioritaire
- Méthodes de gradient de politique : algorithme REINFORCE
- Architectures Actor-Critic (A2C, A3C)
- Proximal Policy Optimization (PPO)
- Soft Actor-Critic (SAC)
6. Travail avec des espaces d'actions continus
- Défis du contrôle continu
- Utilisation de DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Outils pratiques et cadres de travail
- Utilisation de Stable-Baselines3 et Ray RLlib
- Journalisation et surveillance avec TensorBoard
- Réglage des hyperparamètres pour les modèles DRL
8. Ingénierie de la récompense et conception de l'environnement
- Mise en forme de la récompense et équilibre des pénalités
- Concepts de transfert d'apprentissage sim-to-real (simulation vers réalité)
- Création d'environnements personnalisés dans Gymnasium
9. Environnements partiellement observables et généralisation
- Gestion des informations d'état incomplètes (POMDP)
- Approches mémorielles utilisant des LSTMs et RNN
- Amélioration de la robustesse et de la généralisation des agents
10. Théorie des jeux et apprentissage par renforcement multi-agents
- Introduction aux environnements multi-agents
- Coopération versus compétition
- Applications dans l'entraînement adversarial et l'optimisation des stratégies
11. Études de cas et applications réelles
- Simulations de conduite autonome
- Tarification dynamique et stratégies de trading financier
- Robotique et automatisation industrielle
12. Diagnostic et optimisation
- Diagnostic des entraînements instables
- Gestion de la rareté des récompenses et du surajustement
- Mise à l'échelle des modèles DRL sur GPU et systèmes distribués
13. Résumé et prochaines étapes
- Rappel de l'architecture DRL et des algorithmes clés
- Tendances de l'industrie et orientations de la recherche (par exemple, RLHF, modèles hybrides)
- Ressources supplémentaires et supports de lecture
Pré requis
- Maîtrise de la programmation Python
- Compréhension du calcul différentiel et de l'algèbre linéaire
- Connaissances de base en probabilités et statistiques
- Expérience dans la création de modèles d'apprentissage automatique en Python avec NumPy ou TensorFlow/PyTorch
Public visé
- Développeurs intéressés par l'IA et les systèmes intelligents
- Data scientists explorant les cadres d'apprentissage par renforcement
- Ingénieurs en apprentissage automatique travaillant sur des systèmes autonomes
Nos clients témoignent (3)
J'ai vraiment aimé la fin où nous avons pris le temps de jouer avec CHAT GPT. La salle n'était pas très bien organisée pour cela - au lieu d'une grande table, quelques petites tables auraient été préférables afin que nous puissions travailler en petits groupes et brainstormer.
Nola - Laramie County Community College
Formation - Artificial Intelligence (AI) Overview
Traduction automatique
Travailler à partir des principes fondamentaux de manière concentrée, puis passer à l'application d'études de cas le même jour
Maggie Webb - Department of Jobs, Regions, and Precincts
Formation - Artificial Neural Networks, Machine Learning, Deep Thinking
Traduction automatique
Qu'il utilisait des données réelles d'entreprise. Le formateur avait une très bonne approche en faisant participer et concourir les stagiaires
Jimena Esquivel - Zaklad Uslugowy Hakoman Andrzej Cybulski
Formation - Applied AI from Scratch in Python
Traduction automatique