Plan du cours

Introduction à AIOps

  • Qu'est-ce que AIOps et pourquoi cela est important
  • Surveillance traditionnelle vs. observabilité pilotée par AIOps
  • Architecture de AIOps et composants clés

Collecte et Normalisation des Données Opérationnelles

  • Types de données d'observabilité : métriques, journaux et traces
  • Ingestion de données à partir de multiples sources (serveurs, conteneurs, cloud)
  • Utilisation d'agents et d'exportateurs (Prometheus, Beats, Fluentd)

Corrélation des Données et Détection des Anomalies

  • Corrélation en série temporelle et méthodes statistiques
  • Utilisation de modèles ML pour la détection d'anomalies
  • Détection d'incidents dans les systèmes distribués

Alertes et Réduction du Bruit

  • Conception de règles intelligentes d'alerte et seuils
  • Suppression, déduplication et regroupement des alertes
  • Intégration avec Alertmanager, Slack, PagerDuty ou Opsgenie

Analyse de la Cause Première et Visualisation

  • Utilisation de tableaux de bord pour visualiser les métriques et détecter les tendances
  • Exploration des événements et des timelines pour l'analyse de la cause première (RCA)
  • Suivi des problèmes à travers les couches avec des outils de traçage distribué

Automatisation et Rémédiation

  • Déclenchement d'scripts ou workflows automatisés à partir des incidents
  • Intégration avec les systèmes ITSM (ServiceNow, Jira)
  • Cas d'utilisation : auto-guérison, mise à l'échelle, redirige le trafic

Outils Open Source et Commerciaux de AIOps

  • Aperçu des outils : Prometheus, Grafana, ELK, Moogsoft, Dynatrace
  • Critères d'évaluation pour choisir une plateforme AIOps
  • Démonstration et mise en pratique avec un stack sélectionné

Résumé et Étapes Suivantes

Pré requis

  • Une compréhension des opérations informatiques et des concepts de surveillance système
  • Expérience avec les outils ou tableaux de bord de surveillance
  • Familiarité avec les formats de base des journaux et métriques

Public cible

  • Équipes d'opérations responsables de l'infrastructure et des applications
  • Ingénieurs de la fiabilité du site (SREs)
  • Équipes de surveillance IT et observabilité
 14 Heures

Nombre de participants


Prix ​​par Participant

Cours à venir

Catégories Similaires