Prenez contact avec nous

Plan du cours

Introduction à EXO et au clustering d'IA local

  • Aperçu du framework EXO et de l'écosystème exo-explore
  • Comparaison de l'inférence centralisée sur le cloud versus l'inférence locale distribuée
  • Architecture : découverte de dispositifs libp2p, backend MLX, tableau de bord et couches API
  • Exigences matérielles : Apple Silicon (M3 Ultra, M4 Pro/Max), Thunderbolt 5, stockage partagé

Installation d'EXO sur macOS

  • Configuration de Xcode, de la Toolchain Metal et des prérequis de macOS
  • Installation de uv, Node.js et de la toolchain Rust nightly
  • Installation de la fourche macmon pour la surveillance d'Apple Silicon
  • Clonage du dépôt et compilation du tableau de bord avec npm
  • Lancement d'EXO depuis le code source et vérification du tableau de bord sur localhost:52415

Installation d'EXO sur Linux

  • Installation des dépendances via apt ou Homebrew sur Linux
  • Configuration de uv, Node.js 18+ et Rust nightly
  • Compilation du tableau de bord et exécution d'EXO en mode uniquement CPU
  • Architecture des répertoires : chemins XDG Base Directory pour la configuration, les données, le cache et les journaux

Découverte automatique des dispositifs et formation du cluster

  • Compréhension de la découverte automatique basée sur libp2p sur les réseaux locaux
  • Configuration d'espaces de noms personnalisés avec EXO_LIBP2P_NAMESPACE pour l'isolation du cluster
  • Vérification de l'appartenance des nœuds dans la vue du cluster du tableau de bord
  • Gestion des échecs de découverte et des problèmes de segmentation réseau

Activation de RDMA via Thunderbolt 5

  • Architecture RDMA et l'allégement de 99 % de la latence
  • Activation de RDMA en mode de récupération macOS avec rdma_ctl
  • Exigences des câbles et contraintes de topologie des ports sur Mac Studio
  • Correspondance des versions macOS sur tous les nœuds du cluster
  • Dépannage de la découverte RDMA et de la configuration DHCP

Déploiement des modèles de pointe

  • Utilisation du tableau de bord pour charger et partitionner les modèles DeepSeek v3.1, Qwen3-235B et la famille Llama
  • Aperçu des placements d'instances via le point de terminaison /instance/previews de l'API
  • Création d'instances de modèles avec le partitionnement par pipeline ou parallélisme tensoriel
  • Configuration de cartes de modèles personnalisées depuis le hub HuggingFace

Surveillance et dépannage

  • Lecture des journaux EXO et compréhension de la traçabilité distribuée
  • Interprétation de la santé du cluster dans la vue du cluster du tableau de bord
  • Diagnostic des échecs des nœuds de travail et du comportement de reconnexion
  • Utilisation d'EXO_TRACING_ENABLED pour l'analyse des goulots d'étranglement de performance

Maintenance et mises à jour du cluster

  • Mises à jour des binaires EXO et procédures de recompilation du tableau de bord
  • Migration des caches de modèles et gestion des modèles pré-téléchargés via NFS
  • Retrait graduel des nœuds et rééquilibrage des charges de travail

Pré requis

  • Compréhension des fondamentaux du réseau (IP, sous-réseautage, pare-feu)
  • Expérience avec l'administration en ligne de commande de macOS ou Linux
  • Connaissance de la gestion des paquets Python (pip/uv) et des outils Node.js

Audience

  • Administrateurs système
  • Ingénieurs DevOps
  • Architectes d'infrastructure IA responsables du déploiement de LLM en local
 21 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires