Prenez contact avec nous

Plan du cours

Infrastructure as Code pour EXO

  • Vue d'ensemble des schémas de déploiement EXO : cluster mononœud, multinœud et clusters RDMA
  • Automatisation de l'installation des dépendances (Xcode, uv, Node.js, Rust) avec la gestion de configuration
  • Utilisation des Nix flakes pour des builds EXO reproductibles et des environnements développeur
  • Rédaction de playbooks Ansible ou de scripts shell pour le provisionnement non supervisé du cluster

Builds reproductibles et intégration CI

  • Épingler les dépendances et construire le tableau de bord dans les pipelines CI
  • Exécuter des tests de fumée EXO dans les runners GitHub Actions ou GitLab CI
  • Créer des images de référence et des workflows de rollback basés sur des instantanés pour les VMs macOS et Linux
  • Versionner les cartes de modèles personnalisées alongside le code de l'application

Découverte de cluster et automatisation du réseau

  • Configuration de mDNS et DNS statique pour une découverte fiable des nœuds libp2p
  • Automatisation de la création de profils réseau et de la gestion du pont Thunderbolt sur macOS
  • Utilisation de namespaces personnalisés (EXO_LIBP2P_NAMESPACE) pour séparer les clusters dev, staging et prod
  • Règles de pare-feu et segmentation réseau pour les environnements multi-locataires

Gestion du cycle de vie du stockage et des modèles

  • Conception des stratégies EXO_MODELS_DIRS et EXO_MODELS_READ_ONLY_DIRS
  • Montage de partages NFS ou SAN en tant que dépôts de modèles en lecture seule pour un provisionnement rapide
  • Capture des caches périmés et politiques de rétention des poids versionnés
  • Automatisation des pré-téléchargements de modèles et des vérifications de santé avant les mises à jour progressives

Surveillance et alertes

  • Envoi des logs EXO vers une journalisation centralisée (ELK, Loki ou Splunk)
  • Construction des tableaux de bord Grafana à partir de la sortie EXO_TRACING_ENABLED
  • Alertes sur les changements de membership du cluster, les événements OOM et les pics de latence d'inférence
  • Corrélation de la télémétrie matériel macmon avec les régressions de performance des modèles

Mises à jour, rollback et reprise après sinistre

  • Préparer les mises à jour des binaires EXO dans un nœud canary avant le déploiement sur la flotte
  • Rollback au niveau du modèle : basculer entre des versions quantifiées sans re-téléchargement
  • Sauvegarde et restauration de l'état du cluster, des namespaces personnalisés et des poids en cache
  • Documentation des runbooks de reprise pour les scénarios de reconstruction totale du cluster

  • Application du TLS à la couche du reverse proxy (nginx, traefik) pour le tableau de bord et l'API
  • Mise en œuvre du throttling d'API et de l'allowlisting IP pour les endpoints EXO
  • Isolement des clusters avec des VLANs et des politiques réseau zero-trust
  • Audit de l'accès et maintenance d'un inventaire des modèles déployés et de leurs versions

Pré requis

  • Expérience avec les pratiques DevOps (CI/CD, IaC, orchestration de conteneurs)
  • Connaissance de l'administration système macOS ou Linux et de la gestion des paquets
  • Compréhension des concepts de réseau, DNS et stockage

Public

  • Ingénieurs DevOps
  • Architectes d'infrastructure
  • SREs responsables des charges de travail IA sur site
 21 Heures

Nombre de participants


Prix par participant

Nos clients témoignent (2)

Cours à venir

Catégories Similaires