Plan du cours
Fondements des systèmes agences en production
- Architectures agences : boucles, outils, mémoire et couches d'orchestration
- Cycle de vie des agents : développement, déploiement et opération continue
- Défis de la gestion à grande échelle des agents en production
Infrastructures et modèles de déploiement
- Déploiement d'agents dans des environnements conteneurisés et cloud
- Modèles de mise à l'échelle : échelonnage horizontal vs vertical, concurrence et limitation
- Orchestration multi-agents et équilibrage des charges
Surveillance et observabilité
- Métriques clés : latence, taux de succès, utilisation de la mémoire et profondeur des appels d'agents
- Traçage de l'activité des agents et des graphes d'appels
- Instrumentation de l'observabilité avec Prometheus, OpenTelemetry et Grafana
Journalisation, audit et conformité
- Journalisation centralisée et collecte d'événements structurés
- Conformité et traçabilité dans les flux de travail agents
- Conception de traces d'audit et de mécanismes de replay pour le débogage
Optimisation des performances et des ressources
- Réduction du surcoût d'inférence et optimisation des cycles d'orchestration des agents
- Mise en cache de modèles et embeddings légers pour une récupération plus rapide
- Tests de charge et scénarios de stress pour les pipelines d'IA
Contrôle des coûts et gouvernance
- Compréhension des facteurs de coût des agents : appels API, mémoire, calcul et intégrations externes
- Suivi des coûts au niveau des agents et mise en œuvre de modèles de chargeback
- Politiques d'automatisation pour prévenir la prolifération des agents et la consommation de ressources inactives
Stratégies CI/CD et déploiement des agents
- Intégration des pipelines d'agents dans les systèmes CI/CD
- Tests, versioning et stratégies de retour en arrière pour les mises à jour itératives des agents
- Déploiements progressifs et mécanismes de déploiement sécurisés
Récupération en cas de panne et ingénierie de fiabilité
- Conception pour la tolérance aux pannes et la dégradation gracieuse
- Modèles de réessai, de délai d'attente et de circuit breaker pour la fiabilité des agents
- Cadres de réponse aux incidents et post-mortem pour les opérations d'IA
Projet final
- Construire et déployer un système d'IA agents avec une surveillance complète et un suivi des coûts
- Simuler la charge, mesurer les performances et optimiser l'utilisation des ressources
- Présenter l'architecture finale et le tableau de bord de surveillance aux pairs
Résumé et étapes suivantes
Pré requis
- Compréhension approfondie de MLOps et des systèmes d'apprentissage automatique en production
- Expérience avec les déploiements conteneurisés (Docker/Kubernetes)
- Familiarité avec l'optimisation des coûts cloud et les outils d'observabilité
Public cible
- Ingénieurs MLOps
- Ingénieurs de fiabilité du site (SREs)
- Managers techniques supervisant l'infrastructure IA
Nos clients témoignent (3)
Bon mélange de connaissances et de pratique
Ion Mironescu - Facultatea S.A.I.A.P.M.
Formation - Agentic AI for Enterprise Applications
Traduction automatique
Le mélange de théorie et de pratique ainsi que des perspectives à la fois de haut niveau et de bas niveau
Ion Mironescu - Facultatea S.A.I.A.P.M.
Formation - Autonomous Decision-Making with Agentic AI
Traduction automatique
exercices pratiques
Daniel - Facultatea S.A.I.A.P.M.
Formation - Agentic AI in Multi-Agent Systems
Traduction automatique