Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Infrastructure as Code pour EXO
- Vue d'ensemble des schémas de déploiement EXO : cluster mononœud, multinœud et clusters RDMA
- Automatisation de l'installation des dépendances (Xcode, uv, Node.js, Rust) avec la gestion de configuration
- Utilisation des Nix flakes pour des builds EXO reproductibles et des environnements développeur
- Rédaction de playbooks Ansible ou de scripts shell pour le provisionnement non supervisé du cluster
Builds reproductibles et intégration CI
- Épingler les dépendances et construire le tableau de bord dans les pipelines CI
- Exécuter des tests de fumée EXO dans les runners GitHub Actions ou GitLab CI
- Créer des images de référence et des workflows de rollback basés sur des instantanés pour les VMs macOS et Linux
- Versionner les cartes de modèles personnalisées alongside le code de l'application
Découverte de cluster et automatisation du réseau
- Configuration de mDNS et DNS statique pour une découverte fiable des nœuds libp2p
- Automatisation de la création de profils réseau et de la gestion du pont Thunderbolt sur macOS
- Utilisation de namespaces personnalisés (EXO_LIBP2P_NAMESPACE) pour séparer les clusters dev, staging et prod
- Règles de pare-feu et segmentation réseau pour les environnements multi-locataires
Gestion du cycle de vie du stockage et des modèles
- Conception des stratégies EXO_MODELS_DIRS et EXO_MODELS_READ_ONLY_DIRS
- Montage de partages NFS ou SAN en tant que dépôts de modèles en lecture seule pour un provisionnement rapide
- Capture des caches périmés et politiques de rétention des poids versionnés
- Automatisation des pré-téléchargements de modèles et des vérifications de santé avant les mises à jour progressives
Surveillance et alertes
- Envoi des logs EXO vers une journalisation centralisée (ELK, Loki ou Splunk)
- Construction des tableaux de bord Grafana à partir de la sortie EXO_TRACING_ENABLED
- Alertes sur les changements de membership du cluster, les événements OOM et les pics de latence d'inférence
- Corrélation de la télémétrie matériel macmon avec les régressions de performance des modèles
Mises à jour, rollback et reprise après sinistre
- Préparer les mises à jour des binaires EXO dans un nœud canary avant le déploiement sur la flotte
- Rollback au niveau du modèle : basculer entre des versions quantifiées sans re-téléchargement
- Sauvegarde et restauration de l'état du cluster, des namespaces personnalisés et des poids en cache
- Documentation des runbooks de reprise pour les scénarios de reconstruction totale du cluster
- Application du TLS à la couche du reverse proxy (nginx, traefik) pour le tableau de bord et l'API
- Mise en œuvre du throttling d'API et de l'allowlisting IP pour les endpoints EXO
- Isolement des clusters avec des VLANs et des politiques réseau zero-trust
- Audit de l'accès et maintenance d'un inventaire des modèles déployés et de leurs versions
Pré requis
- Expérience avec les pratiques DevOps (CI/CD, IaC, orchestration de conteneurs)
- Connaissance de l'administration système macOS ou Linux et de la gestion des paquets
- Compréhension des concepts de réseau, DNS et stockage
Public
- Ingénieurs DevOps
- Architectes d'infrastructure
- SREs responsables des charges de travail IA sur site
21 Heures
Nos clients témoignent (2)
Craig était très impliqué dans la formation, toujours en s'assurant que nous prêtions attention, en adaptant les exemples à nos activités quotidiennes et en fournissant une réponse chaque fois qu'on lui posait une question, même si l'information n'était pas incluse dans la présentation.
Ecaterina Ioana Nicoale - BOOKING HOLDINGS ROMANIA SRL
Formation - DevOps Foundation®
Traduction automatique
Niveau élevé d’engagement et de connaissances du formateur
Jacek - Softsystem
Formation - DevOps Engineering Foundation (DOEF)®
Traduction automatique