Cursusaanbod

Inleiding tot Vision-Language Modellen

  • Overzicht van VLMs en hun rol in multimodale AI
  • Populaire architecturen: CLIP, Flamingo, BLIP, enz.
  • Gebruiksgevallen: zoeken, captioning, autonome systemen, inhoudsanalyse

Voorbereiding van de Fine-Tuning Omgeving

  • Installatie van OpenCLIP en andere VLM-bibliotheken
  • Datasetformaten voor afbeelding-tekstparen
  • Voorbewerkingspipelines voor visuele en taalkundige invoer

Fine-Tuning van CLIP en Vergelijkbare Modellen

  • Contrastieve verlies en gezamenlijke embeddingsruimtes
  • Praktijk: fine-tuning van CLIP op aangepaste datasets
  • Behandeling van domeinspecifieke en multilinguale gegevens

Geavanceerde Fine-Tuning Technieken

  • Gebruik van LoRA en adaptergebaseerde methoden voor efficiëntie
  • Prompt tuning en visuele prompt injectie
  • Zero-shot vs. fine-tuned evaluatie afwegingen

Evaluatie en Benchmarking

  • Metriek voor VLMs: ophaling nauwkeurigheid, BLEU, CIDEr, recall
  • Visuele-tekst aligneringsdiagnostiek
  • Visualisatie van embedding ruimtes en misclassificaties

Implementatie en Gebruik in Echte Toepassingen

  • Exporteren van modellen voor inferentie (TorchScript, ONNX)
  • Integratie van VLMs in pipelines of APIs
  • Bronconsideraties en model schaling

Casestudies en Toegepaste Scenario's

  • Media analyse en inhoudsmoderatie
  • Zoeken en ophalen in e-commerce en digitale bibliotheken
  • Multimodale interactie in robotica en autonome systemen

Samenvatting en Volgende Stappen

Vereisten

  • Een begrip van diepe leren voor visie en NLP
  • Ervaring met PyTorch en transformer-gebaseerde modellen
  • Vertrouwdheid met multimodale modelarchitecturen

Publiek

  • Computer vision engineers
  • AI developers
 14 Uren

Aantal deelnemers


Prijs Per Deelnemer

Voorlopige Aankomende Cursussen

Gerelateerde categorieën