Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Conception d'une Architecture Ouverte AIOps
- Aperçu des composants clés dans les pipelines ouverts AIOps
- Flux de données de l'ingestion aux alertes
- Comparaison et stratégie d'intégration des outils
Collecte et Agrégation des Données
- Ingérer les données en série temporelle avec Prometheus
- Capturer les journaux avec Logstash et Beats
- Normaliser les données pour la corrélation inter-sources
Construction de Tableaux de Bord Observables
- Visualisation des métriques avec Grafana
- Création de tableaux de bord Kibana pour l'analyse des journaux
- Utilisation de requêtes Elasticsearch pour extraire des insights opérationnels
Détection d'Anomalies et Prédiction d'Incidents
- Exporter les données observables vers des pipelines Python
- Formation de modèles ML pour la détection d'anomalies et la prévision
- Déploiement des modèles pour l'inférence en temps réel dans le pipeline observable
Alertes et Automatisation avec Des Outils Ouverts
- Création de règles d'alerte Prometheus et routage Alertmanager
- Déclenchement de scripts ou workflows API pour la réponse automatique
- Utilisation des outils d'orchestration open-source (par exemple, Ansible, Rundeck)
Considérations sur l'Intégration et l'Echelle
- Gestion de l'ingestion à haute volumétrie et de la rétention à long terme
- Sécurité et contrôle d'accès dans les piles open-source
- Echelonnement indépendant de chaque couche : ingestion, traitement, alertes
Applications Réelles et Extensions
- Études de cas : ajustement des performances, prévention des pannes, optimisation des coûts
- Extension des pipelines avec des outils de tracage ou des graphes de services
- Meilleures pratiques pour l'exécution et la maintenance du AIOps en production
Résumé et Étapes Suivantes
Pré requis
- Expérience avec des outils d'observabilité tels que Prometheus ou ELK
- Connaissance pratique de Python et des fondements de l'apprentissage automatique
- Compréhension des opérations informatiques et des workflows d'alerte
Public visé
- Ingénieurs en fiabilité des sites avancés (SRE)
- Ingénieurs de données travaillant dans les opérations
- Chefs de plateforme DevOps et architectes d'infrastructure
14 Heures