Plan du cours

Introduction à l'AIOps Prédictive

  • Aperçu des analyses prédictives dans les opérations IT
  • Sources de données pour la prédiction (logs, métriques, événements)
  • Concepts clés en forecasting de séries temporelles et en détection d'anomalies

Conception de Modèles de Prédiction des Incidents

  • Étiquetage des incidents historiques et du comportement du système
  • Choix et entraînement des modèles (par exemple, LSTM, Random Forest, AutoML)
  • Évaluation des performances du modèle et gestion des faux positifs

Collecte de Données et Ingénierie des Caractéristiques

  • Ingestion et alignement des données de logs et de métriques pour l'entrée du modèle
  • Extraction de caractéristiques à partir de données structurées et non structurées
  • Gestion du bruit et des données manquantes dans les pipelines opérationnels

Automatisation de l'Analyse des Causes Racines (RCA)

  • Corrélation basée sur un graphe des services et de l'infrastructure
  • Utilisation de ML pour inférer les causes probables à partir des chaînes d'événements
  • Visualisation de la RCA avec des tableaux de bord conscients de la topologie

Remédiation et Automatisation des Workflows

  • Intégration à des plateformes d'automatisation (par exemple, Ansible, Rundeck)
  • Déclenchement de rollbacks, redémarrages ou redirections de trafic
  • Audit et documentation des interventions automatisées

Évolution des Pipelines AIOps Intelligents

  • MLOps pour l'observabilité : retraining et versionnement de modèles
  • Exécution de prédictions en temps réel sur des nœuds distribués
  • Meilleures pratiques pour le déploiement d'AIOps dans des environnements de production

Études de Cas et Applications Pratiques

  • Analyse de données réelles d'incidents à l'aide de modèles AIOps prédictifs
  • Déploiement de pipelines RCA avec des données synthétiques et de production
  • Examen des cas d'usage de l'industrie : pannes cloud, instabilité des microservices, dégradations réseau

Résumé et Étapes Suivantes

Pré requis

  • Expérience avec des systèmes de surveillance tels que Prometheus ou ELK
  • Connaissances pratiques de Python et d'apprentissage automatique de base
  • Familiarité avec les workflows de gestion des incidents

Public cible

  • Ingénieurs sénior en fiabilité du site (SREs)
  • Architectes d'automatisation IT
  • Responsables de plateformes DevOps et d'observabilité
 14 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires


Fatal error: Uncaught TypeError: _isl_get_excluded_site(): Return value must be of type ?array, none returned in /apps/hitra7/backdrop/modules/_custom/frontend/islc7/isl_common.inc:38 Stack trace: #0 /apps/hitra7/backdrop/modules/_custom/frontend/islc7/isl_common.inc(30): _isl_get_excluded_site() #1 /apps/hitra7/backdrop/modules/_custom/frontend/islc7/isl_common.inc(17): isl_get_excluded_site() #2 /apps/hitra7/backdrop/modules/_custom/frontend/islc7/islc7.module(51): get_outline_isls() #3 /apps/hitra7/backdrop/modules/_custom/frontend/islc7/islc7.module(7): islc_prepare_links() #4 /apps/hitra7/npfrontend/nptemplates/default.php(272): islc7_sites_links_array_v3() #5 /apps/hitra7/npfrontend/modules/course/course.php(143): require_once('...') #6 /apps/hitra7/npfrontend/core/routes.php(15): course_menu_callback() #7 /apps/hitra7/npfrontend/__index.php(81): require_once('...') #8 /apps/hitra7/npfrontend/index.php(15): include_once('...') #9 /apps/hitra7/index.php(66): include_once('...') #10 {main} thrown in /apps/hitra7/backdrop/modules/_custom/frontend/islc7/isl_common.inc on line 38