Prenez contact avec nous

Plan du cours

Introduction à l'AIOps

  • Qu'est-ce que l'AIOps et pourquoi est-ce important
  • Surveillance traditionnelle vs observabilité pilotée par l'AIOps
  • Architecture AIOps et composants clés

Collecte et normalisation des données opérationnelles

  • Types de données d'observabilité : métriques, logs et traces
  • Ingestion de données provenant de multiples sources (serveurs, conteneurs, cloud)
  • Utilisation d'agents et d'exporters (Prometheus, Beats, Fluentd)

Corrélation des données et détection d'anomalies

  • Corrélation des séries temporelles et méthodes statistiques
  • Utilisation de modèles ML pour la détection d'anomalies
  • Détection d'incidents au sein de systèmes distribués

Alerting et réduction du bruit

  • Conception de règles et de seuils d'alerte intelligents
  • Suppression, déduplication et regroupement des alertes
  • Intégration avec Alertmanager, Slack, PagerDuty ou Opsgenie

Analyse de la cause racine et visualisation

  • Utilisation de tableaux de bord pour visualiser les métriques et détecter les tendances
  • Exploration des événements et des chronologies pour l'analyse de cause racine
  • Traçage des problèmes à travers les différentes couches avec des outils de distributed tracing

Automatisation et remédiation

  • Déclenchement de scripts ou de workflows automatisés à partir des incidents
  • Intégration avec les systèmes ITSM (ServiceNow, Jira)
  • Cas d'usage : autoguérison, mise à l'échelle, reconfiguration du trafic

Plateformes AIOps open source et commerciales

  • Aperçu des outils : Prometheus, Grafana, ELK, Moogsoft, Dynatrace
  • Critères d'évaluation pour le choix d'une plateforme AIOps
  • Démo et prise en main avec une stack sélectionnée

Résumé et prochaines étapes

Pré requis

  • Une compréhension des concepts d'opérations IT et de surveillance des systèmes
  • Une expérience avec des outils de surveillance ou des tableaux de bord
  • Une familiarité avec les formats de base des logs et des métriques

Public cible

  • Les équipes opérationnelles responsables de l'infrastructure et des applications
  • Les ingénieurs SRE (Site Reliability Engineers)
  • Les équipes IT dédiées à la surveillance et à l'observabilité
 14 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires