Prenez contact avec nous

Plan du cours

Introduction à la mise à l'échelle d'Ollama

  • Architecture d'Ollama et considérations liées à la montée en charge
  • Goulots d'étranglement courants dans les déploiements multi-utilisateurs
  • Bonnes pratiques pour la préparation de l'infrastructure

Allocation des ressources et optimisation des GPU

  • Stratégies d'utilisation efficace des CPU et GPU
  • Considérations relatives à la mémoire et à la bande passante
  • Contraintes au niveau des conteneurs

Déploiement avec des conteneurs et Kubernetes

  • Conteneurisation d'Ollama avec Docker
  • Exécution d'Ollama dans des clusters Kubernetes
  • Équilibrage de charge et découverte de services

Montée en charge automatique et groupement (Batching)

  • Conception de politiques de montée en charge automatique pour Ollama
  • Techniques d'inférence par lots pour optimiser le débit
  • Compromis entre latence et débit

Optimisation de la latence

  • Profilage des performances d'inférence
  • Stratégies de cache et réchauffement des modèles (model warm-up)
  • Réduction de la surcharge liée aux E/S et à la communication

Surveillance et observabilité

  • Intégration de Prometheus pour la collecte de métriques
  • Création de tableaux de bord avec Grafana
  • Alertes et réponse aux incidents pour l'infrastructure Ollama

Gestion des coûts et stratégies de mise à l'échelle

  • Allocation des GPU sensible aux coûts
  • Considérations relatives au déploiement dans le cloud ou sur site
  • Stratégies pour une montée en charge durable

Conclusion et prochaines étapes

Pré requis

  • Expérience en administration des systèmes Linux
  • Compréhension de la conteneurisation et de l'orchestration
  • Connaissance du déploiement de modèles d'apprentissage automatique

Public cible

  • Ingénieurs DevOps
  • Équipes en charge de l'infrastructure ML
  • Ingénieurs de fiabilité des sites (SRE)
 21 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires