Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Introduction à l'AIOps
- Qu'est-ce que l'AIOps et pourquoi est-ce important
- Surveillance traditionnelle vs observabilité pilotée par l'AIOps
- Architecture AIOps et composants clés
Collecte et normalisation des données opérationnelles
- Types de données d'observabilité : métriques, logs et traces
- Ingestion de données provenant de multiples sources (serveurs, conteneurs, cloud)
- Utilisation d'agents et d'exporters (Prometheus, Beats, Fluentd)
Corrélation des données et détection d'anomalies
- Corrélation des séries temporelles et méthodes statistiques
- Utilisation de modèles ML pour la détection d'anomalies
- Détection d'incidents au sein de systèmes distribués
Alerting et réduction du bruit
- Conception de règles et de seuils d'alerte intelligents
- Suppression, déduplication et regroupement des alertes
- Intégration avec Alertmanager, Slack, PagerDuty ou Opsgenie
Analyse de la cause racine et visualisation
- Utilisation de tableaux de bord pour visualiser les métriques et détecter les tendances
- Exploration des événements et des chronologies pour l'analyse de cause racine
- Traçage des problèmes à travers les différentes couches avec des outils de distributed tracing
Automatisation et remédiation
- Déclenchement de scripts ou de workflows automatisés à partir des incidents
- Intégration avec les systèmes ITSM (ServiceNow, Jira)
- Cas d'usage : autoguérison, mise à l'échelle, reconfiguration du trafic
Plateformes AIOps open source et commerciales
- Aperçu des outils : Prometheus, Grafana, ELK, Moogsoft, Dynatrace
- Critères d'évaluation pour le choix d'une plateforme AIOps
- Démo et prise en main avec une stack sélectionnée
Résumé et prochaines étapes
Pré requis
- Une compréhension des concepts d'opérations IT et de surveillance des systèmes
- Une expérience avec des outils de surveillance ou des tableaux de bord
- Une familiarité avec les formats de base des logs et des métriques
Public cible
- Les équipes opérationnelles responsables de l'infrastructure et des applications
- Les ingénieurs SRE (Site Reliability Engineers)
- Les équipes IT dédiées à la surveillance et à l'observabilité
14 Heures