Neem contact met ons op

Cursusaanbod

Fundamenten van Tencent Hunyuan in productie

  • Overzicht van Tencent Hunyuan-modelservingscenario's
  • Productiekenmerken van grote en MoE-modellen
  • Veelvoorkomende bottlenecks op het gebied van latentie, doorvoer en kosten
  • Definieren van service-niveaudoelstellingen voor inferentieworkloads

Deploy-architectuur en serving-flow

  • Kerncomponenten van een productie-inferentiestapel
  • Kies tussen containergebaseerde, on-premise en cloud-deploymodellen
  • Basisprincipes van model laden, request-routing en GPU-toewijzing
  • Ontwerpen voor betrouwbaarheid en operationele eenvoud

Latentieoptimalisatie in de praktijk

  • Gebruik van geoptimaliseerde inferentiemotoren zoals TensorRT waar van toepassing
  • KV-cache-concepten en praktische cache-tuning
  • Verminderen van start-, warmup- en respons- overhead
  • Meten van de tijd tot het eerste token en de token-generatiesnelheid

Doorvoer, Batching en GPU-efficiëntie

  • Strategieën voor continue batching en request-batching
  • Beheren van concurrentie en queue-gedrag
  • Verbeteren van GPU-uitlasting zonder de gebruikerservaring te schaden
  • Omgaan met lang-context en mixed-workload requests

Kwantisatie en kostenbeheersing

  • Waarom kwantisatie belangrijk is voor productieserving
  • Praktische afwegingen van FP16, INT8 en andere veelgebruikte precisie-opties
  • Balanceren van modelkwaliteit, latentie en infrastructuurkosten
  • Een eenvoudige checklist voor kostenoptimalisatie opstellen

Operaties, Monitoring en Gereedheidsreview

  • Triggers voor automatische schaling bij inferentiediensten
  • Monitoring van latentie, doorvoer, cachegebruik en GPU-gezondheid
  • Basisprincipes van logging, alarmering en incidentrespons
  • Een referentie-deploy revieweren en een verbeterplan opstellen

Vereisten

  • Basisbegrip van de deploy en inference-workflows van grote taalmodellen
  • Ervaring met containers, cloud- of on-premise-infrastructuur en API-gebaseerde diensten
  • Werkende kennis van Python of system engineering-taken

Doelgroep

  • ML-engineers die LLM's in productie brengen
  • Platformengineers die verantwoordelijk zijn voor GPU-gebaseerde inferentiediensten
  • Solution architects die schaalbare AI-servingplatforms ontwerpen
 14 Uren

Aantal deelnemers


Prijs per deelnemer

Voorlopige Aankomende Cursussen

Gerelateerde categorieën