Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Conception d'une architecture AIOps open source
- Vue d'ensemble des composants clés des pipelines AIOps open source.
- Flux des données, de l'ingestion à l'alerte.
- Comparaison des outils et stratégie d'intégration.
Collecte et agrégation des données
- Ingestion de données de série temporelle avec Prometheus.
- Capture des journaux avec Logstash et Beats.
- Normalisation des données pour la corrélation multi-sources.
Conception de tableaux de bord d'observabilité
- Visualisation des métriques avec Grafana.
- Création de tableaux de bord Kibana pour l'analyse des journaux.
- Utilisation des requêtes Elasticsearch pour extraire des informations opérationnelles.
Détection d'anomalies et prédiction d'incidents
- Exportation des données d'observabilité vers des pipelines Python.
- Entraînement de modèles ML pour la détection d'outliers et les prévisions.
- Déploiement des modèles pour l'inférence en temps réel dans le pipeline d'observabilité.
Alertes et automatisation avec des outils open source
- Création de règles d'alerte Prometheus et routage Alertmanager.
- Déclenchement de scripts ou de workflows API pour la réponse automatique.
- Utilisation d'outils d'orchestration open source (par exemple, Ansible, Rundeck).
Aspects intégration et évolutivité
- Gestion de l'ingestion à haut débit et de la conservation à long terme.
- Sécurité et contrôle d'accès dans les environnements open source.
- Mise à l'échelle indépendante de chaque couche : ingestion, traitement, alerte.
Applications réelles et extensions
- Études de cas : optimisation des performances, prévention des temps d'arrêt et maîtrise des coûts.
- Extension des pipelines avec des outils de tracing ou des graphes de services.
- Bonnes pratiques pour le déploiement et la maintenance d'AIOps en production.
Résumé et prochaines étapes
Pré requis
- Expérience avec des outils d'observabilité tels que Prometheus ou ELK.
- Connaissance pratique de Python et des fondamentaux du machine learning.
- Compréhension des opérations IT et des workflows d'alerte.
Public visé
- Ingénieurs SRE (Site Reliability Engineering) expérimentés.
- Ingénieurs des données travaillant dans le domaine des opérations.
- Leads de plateformes DevOps et architectes d'infrastructure.
14 Heures