Plan du cours

Introduction aux modèles de vision-langue

  • Aperçu des VLM et leur rôle dans l'IA multimodale
  • Architectures populaires : CLIP, Flamingo, BLIP, etc.
  • Cas d'utilisation : recherche, légendage, systèmes autonomes, analyse de contenu

Préparation de l'environnement de fine-tuning

  • Configuration d'OpenCLIP et d'autres bibliothèques VLM
  • Formats de dataset pour les paires image-texte
  • Pipelines de prétraitement pour les entrées visuelles et linguistiques

Fine-tuning de CLIP et de modèles similaires

  • Perte contrastive et espaces d'embedding conjoints
  • Mise en pratique : fine-tuning de CLIP sur des datasets personnalisés
  • Gestion des données spécifiques à un domaine et multilingues

Techniques avancées de fine-tuning

  • Utilisation de LoRA et de méthodes basées sur les adaptateurs pour l'efficacité
  • Fine-tuning des prompts et injection de prompts visuels
  • Bilan du zero-shot vs. fine-tuned : compromis d'évaluation

Évaluation et benchmarking

  • Métriques pour les VLM : précision de la recherche, BLEU, CIDEr, recall
  • Diagnostics d'alignement visuel-textuel
  • Visualisation des espaces d'embedding et des erreurs de classification

Déploiement et utilisation dans des applications réelles

  • Exportation de modèles pour l'inférence (TorchScript, ONNX)
  • Intégration des VLM dans des pipelines ou API
  • Considérations sur les ressources et le scaling des modèles

Études de cas et scénarios appliqués

  • Analyse de médias et modération de contenu
  • Recherche et récupération dans l'e-commerce et les bibliothèques numériques
  • Interaction multimodale en robotique et systèmes autonomes

Résumé et étapes suivantes

Pré requis

  • Une compréhension de l'apprentissage profond pour la vision et le traitement du langage naturel (NLP)
  • Une expérience avec PyTorch et les modèles basés sur des transformateurs
  • Une familiarité avec les architectures de modèles multimodaux

Public cible

  • Ingénieurs en vision par ordinateur
  • Développeurs d'IA
 14 Heures

Nombre de participants


Prix ​​par Participant

Cours à venir

Catégories Similaires