Plan du cours
Fondamentaux des systèmes agents en production
- Architectures agents : boucles, outils, mémoire et couches d'orchestration
- Cycle de vie des agents : développement, déploiement et opération continue
- Défis de la gestion des agents à l'échelle de la production
Modèles d'infrastructure et de déploiement
- Déploiement des agents dans des environnements conteneurisés et cloud
- Modèles de mise à l'échelle : horizontale vs verticale, concurrence et throttling
- Orchestration multi-agents et équilibrage de charge
Surveillance et observabilité
- Métriques clés : latence, taux de succès, utilisation de la mémoire et profondeur des appels d'agents
- Traçage de l'activité des agents et des graphes d'appels
- Instrumentation de l'observabilité avec Prometheus, OpenTelemetry et Grafana
Journalisation, audit et conformité
- Journalisation centralisée et collecte d'événements structurés
- Conformité et traçabilité dans les flux de travail agents
- Conception de traces d'audit et de mécanismes de relecture pour le débogage
Réglage des performances et optimisation des ressources
- Réduction de la surcharge d'inférence et optimisation des cycles d'orchestration des agents
- Mise en cache des modèles et embeddings légers pour une récupération plus rapide
- Tests de charge et scénarios de stress pour les pipelines d'IA
Contrôle des coûts et gouvernance
- Compréhension des facteurs de coût des agents : appels API, mémoire, calcul et intégrations externes
- Suivi des coûts au niveau des agents et mise en œuvre de modèles de facturation interne
- Politiques d'automatisation pour prévenir la prolifération des agents et la consommation de ressources inactives
Intégration continue et déploiement (CI/CD) et stratégies de déploiement pour les agents
- Intégration des pipelines d'agents dans les systèmes CI/CD
- Stratégies de test, de gestion des versions et de retour en arrière pour les mises à jour itératives des agents
- Déploiements progressifs et mécanismes de déploiement sécurisé
Récupération après incident et ingénierie de la fiabilité
- Conception pour la tolérance aux pannes et la dégradation gracieuse
- Patterns de retry, de timeout et de circuit breaker pour la fiabilité des agents
- Réponse aux incidents et cadres d'analyse post-mortem pour les opérations d'IA
Projet final
- Construire et déployer un système d'IA agent avec une surveillance complète et un suivi des coûts
- Simuler la charge, mesurer les performances et optimiser l'utilisation des ressources
- Présenter l'architecture finale et le tableau de bord de surveillance aux pairs
Résumé et prochaines étapes
Pré requis
- Bonne compréhension des concepts MLOps et des systèmes de machine learning en production
- Expérience avec les déploiements conteneurisés (Docker/Kubernetes)
- Connaissance des outils d'optimisation des coûts cloud et d'observabilité
Public cible
- Ingénieurs MLOps
- Ingénieurs SRE (Site Reliability Engineers)
- Chefs de projet technique supervisant l'infrastructure IA
Nos clients témoignent (3)
Le formateur est patient et très aidant. Il maîtrise bien le sujet.
CLIFFORD TABARES - Universal Leaf Philippines, Inc.
Formation - Agentic AI for Business Automation: Use Cases & Integration
Traduction automatique
Bon mélange de connaissances et de pratique
Ion Mironescu - Facultatea S.A.I.A.P.M.
Formation - Agentic AI for Enterprise Applications
Traduction automatique
Le mélange de théorie et de pratique, ainsi que des perspectives de haut niveau et de bas niveau
Ion Mironescu - Facultatea S.A.I.A.P.M.
Formation - Autonomous Decision-Making with Agentic AI
Traduction automatique