Prenez contact avec nous

Plan du cours

Conception d'une architecture AIOps open source

  • Vue d'ensemble des composants clés des pipelines AIOps open source.
  • Flux des données, de l'ingestion à l'alerte.
  • Comparaison des outils et stratégie d'intégration.

Collecte et agrégation des données

  • Ingestion de données de série temporelle avec Prometheus.
  • Capture des journaux avec Logstash et Beats.
  • Normalisation des données pour la corrélation multi-sources.

Conception de tableaux de bord d'observabilité

  • Visualisation des métriques avec Grafana.
  • Création de tableaux de bord Kibana pour l'analyse des journaux.
  • Utilisation des requêtes Elasticsearch pour extraire des informations opérationnelles.

Détection d'anomalies et prédiction d'incidents

  • Exportation des données d'observabilité vers des pipelines Python.
  • Entraînement de modèles ML pour la détection d'outliers et les prévisions.
  • Déploiement des modèles pour l'inférence en temps réel dans le pipeline d'observabilité.

Alertes et automatisation avec des outils open source

  • Création de règles d'alerte Prometheus et routage Alertmanager.
  • Déclenchement de scripts ou de workflows API pour la réponse automatique.
  • Utilisation d'outils d'orchestration open source (par exemple, Ansible, Rundeck).

Aspects intégration et évolutivité

  • Gestion de l'ingestion à haut débit et de la conservation à long terme.
  • Sécurité et contrôle d'accès dans les environnements open source.
  • Mise à l'échelle indépendante de chaque couche : ingestion, traitement, alerte.

Applications réelles et extensions

  • Études de cas : optimisation des performances, prévention des temps d'arrêt et maîtrise des coûts.
  • Extension des pipelines avec des outils de tracing ou des graphes de services.
  • Bonnes pratiques pour le déploiement et la maintenance d'AIOps en production.

Résumé et prochaines étapes

Pré requis

  • Expérience avec des outils d'observabilité tels que Prometheus ou ELK.
  • Connaissance pratique de Python et des fondamentaux du machine learning.
  • Compréhension des opérations IT et des workflows d'alerte.

Public visé

  • Ingénieurs SRE (Site Reliability Engineering) expérimentés.
  • Ingénieurs des données travaillant dans le domaine des opérations.
  • Leads de plateformes DevOps et architectes d'infrastructure.
 14 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires