Plan du cours

Introduction à Mistral à grande échelle

  • Aperçu de Mistral Medium 3
  • Compromis entre performance et coût
  • Considérations pour une utilisation à l'échelle d'entreprise

Modèles de déploiement pour les LLMs

  • Topologies de service et choix de conception
  • Déploiements sur site vs dans le cloud
  • Stratégies hybrides et multi-cloud

T techniques d'optimisation de l'inférence

  • Stratégies de batch pour un débit élevé
  • Méthodes de quantification pour réduire les coûts
  • Utilisation des accélérateurs et des GPU

Scalabilité et fiabilité

  • Évolutivité des clusters Kubernetes pour l'inférence
  • Équilibrage de charge et routage du trafic
  • Tolérance aux pannes et redondance

Cadres d'ingénierie des coûts

  • Mesure de l'efficacité des coûts d'inférence
  • Dimensionnement approprié des ressources de calcul et de mémoire
  • Surveillance et alerte pour l'optimisation

Sécurité et conformité en production

  • Sécurisation des déploiements et des API
  • Considérations de gouvernance des données
  • Conformité réglementaire dans l'ingénierie des coûts

Études de cas et bonnes pratiques

  • Architectures de référence pour Mistral à grande échelle
  • Leçons tirées des déploiements d'entreprise
  • Tendances futures en matière d'inférence efficace des LLMs

Synthèse et étapes suivantes

Pré requis

  • Compréhension approfondie du déploiement des modèles d'apprentissage automatique
  • Expérience avec l'infrastructure cloud et les systèmes distribués
  • Familiarité avec les stratégies de réglage des performances et d'optimisation des coûts

PUBLIC VISÉ

  • Ingénieurs infrastructure
  • Architectes cloud
  • Chefs MLOps
 14 Heures

Nombre de participants


Prix ​​par Participant

Cours à venir

Catégories Similaires