Prenez contact avec nous

Plan du cours

Introduction à l'AIOps prédictif

  • Aperçu de l'analyse prédictive dans les opérations IT
  • Sources de données pour la prédiction (journaux, métriques, événements)
  • Concepts clés en prévision de séries temporelles et schémas d'anomalie

Conception de modèles de prédiction d'incidents

  • Étiquetage des incidents historiques et du comportement système
  • Choix et entraînement des modèles (par ex. LSTM, Random Forest, AutoML)
  • Évaluation des performances des modèles et gestion des faux positifs

Collecte de données et ingénierie des caractéristiques

  • Ingestion et alignement des données de journaux et de métriques pour l'entrée des modèles
  • Extraction des caractéristiques à partir de données structurées et non structurées
  • Traitement du bruit et des données manquantes dans les pipelines opérationnels

Automatisation de l'analyse des causes racines (RCA)

  • Corrélation graphique des services et de l'infrastructure
  • Utilisation du ML pour inférer les causes racines probables à partir de chaînes d'événements
  • Visualisation de la RCA avec des tableaux de bord sensibles à la topologie

Correctif et automatisation des workflows

  • Intégration avec les plateformes d'automatisation (par ex. Ansible, Rundeck)
  • Déclenchement de retours arrière, redémarrages ou redirection de trafic
  • Audit et documentation des interventions automatisées

Mise à l'échelle des pipelines AIOps intelligents

  • MLOps pour l'observabilité : réentraînement et versionnement des modèles
  • Exécution des prédictions en temps réel sur des nœuds distribués
  • Bonnes pratiques pour le déploiement de l'AIOps dans des environnements de production

Études de cas et applications pratiques

  • Analyse de données réelles d'incidents à l'aide de modèles AIOps prédictifs
  • Déploiement de pipelines RCA avec des données synthétiques et de production
  • Examen des cas d'usage sectoriels : pannes cloud, instabilité des microservices, dégradations réseau

Résumé et prochaines étapes

Pré requis

  • Expérience avec des systèmes de surveillance tels que Prometheus ou ELK
  • Connaissances pratiques de Python et de base en apprentissage automatique
  • Familiarité avec les workflows de gestion des incidents

Public cible

  • Ingieurs de fiabilité du site seniors (SRE)
  • Architectes en automatisation IT
  • Responsables de plateformes DevOps et d'observabilité
 14 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires