Prenez contact avec nous

Plan du cours

Fondamentaux des systèmes agents en production

  • Architectures agents : boucles, outils, mémoire et couches d'orchestration
  • Cycle de vie des agents : développement, déploiement et opération continue
  • Défis de la gestion des agents à l'échelle de la production

Modèles d'infrastructure et de déploiement

  • Déploiement des agents dans des environnements conteneurisés et cloud
  • Modèles de mise à l'échelle : horizontale vs verticale, concurrence et throttling
  • Orchestration multi-agents et équilibrage de charge

Surveillance et observabilité

  • Métriques clés : latence, taux de succès, utilisation de la mémoire et profondeur des appels d'agents
  • Traçage de l'activité des agents et des graphes d'appels
  • Instrumentation de l'observabilité avec Prometheus, OpenTelemetry et Grafana

Journalisation, audit et conformité

  • Journalisation centralisée et collecte d'événements structurés
  • Conformité et traçabilité dans les flux de travail agents
  • Conception de traces d'audit et de mécanismes de relecture pour le débogage

Réglage des performances et optimisation des ressources

  • Réduction de la surcharge d'inférence et optimisation des cycles d'orchestration des agents
  • Mise en cache des modèles et embeddings légers pour une récupération plus rapide
  • Tests de charge et scénarios de stress pour les pipelines d'IA

Contrôle des coûts et gouvernance

  • Compréhension des facteurs de coût des agents : appels API, mémoire, calcul et intégrations externes
  • Suivi des coûts au niveau des agents et mise en œuvre de modèles de facturation interne
  • Politiques d'automatisation pour prévenir la prolifération des agents et la consommation de ressources inactives

Intégration continue et déploiement (CI/CD) et stratégies de déploiement pour les agents

  • Intégration des pipelines d'agents dans les systèmes CI/CD
  • Stratégies de test, de gestion des versions et de retour en arrière pour les mises à jour itératives des agents
  • Déploiements progressifs et mécanismes de déploiement sécurisé

Récupération après incident et ingénierie de la fiabilité

  • Conception pour la tolérance aux pannes et la dégradation gracieuse
  • Patterns de retry, de timeout et de circuit breaker pour la fiabilité des agents
  • Réponse aux incidents et cadres d'analyse post-mortem pour les opérations d'IA

Projet final

  • Construire et déployer un système d'IA agent avec une surveillance complète et un suivi des coûts
  • Simuler la charge, mesurer les performances et optimiser l'utilisation des ressources
  • Présenter l'architecture finale et le tableau de bord de surveillance aux pairs

Résumé et prochaines étapes

Pré requis

  • Bonne compréhension des concepts MLOps et des systèmes de machine learning en production
  • Expérience avec les déploiements conteneurisés (Docker/Kubernetes)
  • Connaissance des outils d'optimisation des coûts cloud et d'observabilité

Public cible

  • Ingénieurs MLOps
  • Ingénieurs SRE (Site Reliability Engineers)
  • Chefs de projet technique supervisant l'infrastructure IA
 21 Heures

Nombre de participants


Prix par participant

Nos clients témoignent (3)

Cours à venir

Catégories Similaires