Cursusaanbod

Inleiding tot het schalen van Ollama

  • De architectuur van Ollama en overwegingen voor schaalbaarheid
  • Veelvoorkomende fleshalsen in multi-user implementaties
  • Best practices voor infrastructuur klaarheid

Hulpmiddelen toewijzing en GPU-optimalisatie

  • Efficiënte CPU/GPU-gebruiksstrategieën
  • Geheugen- en bandbreedtekosten
  • Container-niveau beperkingen van bronnen

Implementatie met Containers en Kubernetes

  • Containerizing Ollama met Docker
  • Ollama uitvoeren in Kubernetes clusters
  • Load balancing en service discovery

Autoscaling en batchverwerking

  • Autoscaling-beleidsontwerpen voor Ollama
  • Batch-inferentietechnieken voor doorvoeroptimalisatie
  • Trade-offs tussen vertraging en doorvoer

Vertragingsoptimalisatie

  • Inferentieprestaties profileren
  • Cache-strategieën en model-voorverwarming
  • I/O- en communicatie-overhead verminderen

Monitoring en observabiliteit

  • Prometheus integreren voor metingen
  • Dashboards bouwen met Grafana
  • Waarschuwing en incidentrespons voor de Ollama-infrastructuur

Kostenbeheer en schaalbaarheidsstrategieën

  • Kostenbewuste GPU-toewijzing
  • Overwegingen voor cloud- vs. on-prem implementatie
  • Strategieën voor duurzaam schalen

Samenvatting en volgende stappen

Vereisten

  • Ervaring met Linux-systeembeheer
  • Begrip van containerisering en orchestratie
  • Kennis van machine learning model-deployments

Doelgroep

  • DevOps engineers
  • ML infrastructuurteams
  • Site reliability engineers
 21 Uren

Aantal deelnemers


Prijs Per Deelnemer

Voorlopige Aankomende Cursussen

Gerelateerde categorieën