Prenez contact avec nous

Plan du cours

1. Introduction à l'apprentissage par renforcement profond

  • Qu'est-ce que l'apprentissage par renforcement ?
  • Différences entre l'apprentissage supervisé, non supervisé et par renforcement
  • Applications du DRL en 2025 (robotique, santé, finance, logistique)
  • Compréhension de la boucle d'interaction agent-environnement

2. Fondamentaux de l'apprentissage par renforcement

  • Processus de décision de Markov (MDP)
  • États, actions, récompenses, politiques et fonctions de valeur
  • Arbitrage entre exploration et exploitation
  • Méthodes Monte Carlo et apprentissage par différence temporelle (TD)

3. Implémentation des algorithmes de base d'apprentissage par renforcement

  • Méthodes tabulaires : programmation dynamique, évaluation des politiques et itération
  • Apprentissage Q et SARSA
  • Exploration epsilon-greedy et stratégies de décroissance
  • Implémentation d'environnements RL avec OpenAI Gymnasium

4. Transition vers l'apprentissage par renforcement profond

  • Limitations des méthodes tabulaires
  • Utilisation de réseaux de neurones pour l'approximation de fonctions
  • Architecture et flux de travail du Deep Q-Network (DQN)
  • Mémoire d'expérience et réseaux cibles

5. Algorithmes avancés de DRL

  • Double DQN, Dueling DQN et expérience prioritaire
  • Méthodes de gradient de politique : algorithme REINFORCE
  • Architectures Actor-Critic (A2C, A3C)
  • Proximal Policy Optimization (PPO)
  • Soft Actor-Critic (SAC)

6. Travail avec des espaces d'actions continus

  • Défis du contrôle continu
  • Utilisation de DDPG (Deep Deterministic Policy Gradient)
  • Twin Delayed DDPG (TD3)

7. Outils pratiques et cadres de travail

  • Utilisation de Stable-Baselines3 et Ray RLlib
  • Journalisation et surveillance avec TensorBoard
  • Réglage des hyperparamètres pour les modèles DRL

8. Ingénierie de la récompense et conception de l'environnement

  • Mise en forme de la récompense et équilibre des pénalités
  • Concepts de transfert d'apprentissage sim-to-real (simulation vers réalité)
  • Création d'environnements personnalisés dans Gymnasium

9. Environnements partiellement observables et généralisation

  • Gestion des informations d'état incomplètes (POMDP)
  • Approches mémorielles utilisant des LSTMs et RNN
  • Amélioration de la robustesse et de la généralisation des agents

10. Théorie des jeux et apprentissage par renforcement multi-agents

  • Introduction aux environnements multi-agents
  • Coopération versus compétition
  • Applications dans l'entraînement adversarial et l'optimisation des stratégies

11. Études de cas et applications réelles

  • Simulations de conduite autonome
  • Tarification dynamique et stratégies de trading financier
  • Robotique et automatisation industrielle

12. Diagnostic et optimisation

  • Diagnostic des entraînements instables
  • Gestion de la rareté des récompenses et du surajustement
  • Mise à l'échelle des modèles DRL sur GPU et systèmes distribués

13. Résumé et prochaines étapes

  • Rappel de l'architecture DRL et des algorithmes clés
  • Tendances de l'industrie et orientations de la recherche (par exemple, RLHF, modèles hybrides)
  • Ressources supplémentaires et supports de lecture

Pré requis

  • Maîtrise de la programmation Python
  • Compréhension du calcul différentiel et de l'algèbre linéaire
  • Connaissances de base en probabilités et statistiques
  • Expérience dans la création de modèles d'apprentissage automatique en Python avec NumPy ou TensorFlow/PyTorch

Public visé

  • Développeurs intéressés par l'IA et les systèmes intelligents
  • Data scientists explorant les cadres d'apprentissage par renforcement
  • Ingénieurs en apprentissage automatique travaillant sur des systèmes autonomes
 21 Heures

Nombre de participants


Prix par participant

Nos clients témoignent (3)

Cours à venir

Catégories Similaires