Prenez contact avec nous

Plan du cours

Fondamentaux du déploiement de Tencent Hunyuan en production

  • Vue d'ensemble des scénarios de service des modèles Tencent Hunyuan
  • Caractéristiques en production des modèles volumineux et MoE
  • Goulots d'étranglement courants en matière de latence, de débit et de coût
  • Définition des objectifs de niveau de service (SLA) pour les charges de travail d'inférence

Architecture de déploiement et flux de service

  • Composants principaux d'une pile d'inférence en production
  • Choix entre les modèles de déploiement conteneurisé, on-premise et cloud
  • Chargement des modèles, routage des requêtes et allocation des GPU (bases)
  • Conception pour la fiabilité et la simplicité opérationnelle

Optimisation de la latence en pratique

  • Utilisation de moteurs d'inférence optimisés tels que TensorRT, lorsque cela est applicable
  • Concepts du cache KV et réglage pratique du cache
  • Réduction des frais généraux liés au démarrage, à la mise en chauffe et à la réponse
  • Mesure du temps jusqu'au premier jeton et de la vitesse de génération des jetons

Débit, groupement par lots et efficacité des GPU

  • Groupement continu et stratégies de groupement par lots de requêtes
  • Gestion de la concurrence et du comportement de la file d'attente
  • Amélioration de l'utilisation des GPU sans nuire à l'expérience utilisateur
  • Gestion des requêtes à contexte long et des charges de travail mixtes

Quantification et maîtrise des coûts

  • Importance de la quantification pour le service en production
  • Arbitrages pratiques entre les options de précision courantes telles que FP16, INT8, etc.
  • Équilibre entre la qualité du modèle, la latence et le coût de l'infrastructure
  • Création d'une checklist simple pour l'optimisation des coûts

Opérations, surveillance et revue de préparation

  • Déclencheurs de mise à l'échelle automatique pour les services d'inférence
  • Surveillance de la latence, du débit, de l'utilisation du cache et de la santé des GPU
  • Bases de la journalisation, des alertes et de la réponse aux incidents
  • Analyse d'un déploiement de référence et création d'un plan d'amélioration

Pré requis

  • Compréhension de base des workflows de déploiement et d'inférence des grands modèles de langage (LLM)
  • Expérience avec les conteneurs, l'infrastructure cloud ou on-premise, et les services basés sur des API
  • Connaissance pratique de Python ou des tâches d'ingénierie système

Public cible

  • Ingénieurs ML déployant des LLM en production
  • Ingénieurs plateforme responsables des services d'inférence basés sur GPU
  • Architectes solutions concevant des plateformes de service d'IA évolutives
 14 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires