Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Introduction à l'AIOps prédictif
- Aperçu de l'analyse prédictive dans les opérations IT
- Sources de données pour la prédiction (journaux, métriques, événements)
- Concepts clés en prévision de séries temporelles et schémas d'anomalie
Conception de modèles de prédiction d'incidents
- Étiquetage des incidents historiques et du comportement système
- Choix et entraînement des modèles (par ex. LSTM, Random Forest, AutoML)
- Évaluation des performances des modèles et gestion des faux positifs
Collecte de données et ingénierie des caractéristiques
- Ingestion et alignement des données de journaux et de métriques pour l'entrée des modèles
- Extraction des caractéristiques à partir de données structurées et non structurées
- Traitement du bruit et des données manquantes dans les pipelines opérationnels
Automatisation de l'analyse des causes racines (RCA)
- Corrélation graphique des services et de l'infrastructure
- Utilisation du ML pour inférer les causes racines probables à partir de chaînes d'événements
- Visualisation de la RCA avec des tableaux de bord sensibles à la topologie
Correctif et automatisation des workflows
- Intégration avec les plateformes d'automatisation (par ex. Ansible, Rundeck)
- Déclenchement de retours arrière, redémarrages ou redirection de trafic
- Audit et documentation des interventions automatisées
Mise à l'échelle des pipelines AIOps intelligents
- MLOps pour l'observabilité : réentraînement et versionnement des modèles
- Exécution des prédictions en temps réel sur des nœuds distribués
- Bonnes pratiques pour le déploiement de l'AIOps dans des environnements de production
Études de cas et applications pratiques
- Analyse de données réelles d'incidents à l'aide de modèles AIOps prédictifs
- Déploiement de pipelines RCA avec des données synthétiques et de production
- Examen des cas d'usage sectoriels : pannes cloud, instabilité des microservices, dégradations réseau
Résumé et prochaines étapes
Pré requis
- Expérience avec des systèmes de surveillance tels que Prometheus ou ELK
- Connaissances pratiques de Python et de base en apprentissage automatique
- Familiarité avec les workflows de gestion des incidents
Public cible
- Ingieurs de fiabilité du site seniors (SRE)
- Architectes en automatisation IT
- Responsables de plateformes DevOps et d'observabilité
14 Heures