Prenez contact avec nous

Plan du cours

Introduction aux modèles Visio-Langagiers

  • Aperçu des VLM et de leur rôle dans l'IA multimodale
  • Architectures populaires : CLIP, Flamingo, BLIP, etc.
  • Cas d'utilisation : recherche, légendisation, systèmes autonomes, analyse de contenu

Préparation de l'environnement d'ajustement fin

  • Mise en place d'OpenCLIP et d'autres bibliothèques VLM
  • Formats d'ensembles de données pour les paires image-texte
  • Pipelines de prétraitement pour les entrées visuelles et langagières

Ajustement fin de CLIP et de modèles similaires

  • Perte contrastive et espaces d'embedding conjoints
  • Pratique : ajustement fin de CLIP sur des ensembles de données personnalisés
  • Gestion des données spécifiques au domaine et multilingues

Techniques avancées d'ajustement fin

  • Utilisation de LoRA et des méthodes basées sur des adaptateurs pour l'efficacité
  • Réglage par prompt et injection de prompts visuels
  • Compromis entre l'évaluation zero-shot et celle post-ajustement

Évaluation et benchmarking

  • Métriques pour les VLM : précision de la récupération, BLEU, CIDEr, rappel
  • Diagnostic de l'alignement visio-textuel
  • Visualisation des espaces d'embedding et des erreurs de classification

Déploiement et utilisation dans des applications réelles

  • Exportation de modèles pour l'inférence (TorchScript, ONNX)
  • Intégration des VLM dans des pipelines ou des API
  • Considérations en matière de ressources et mise à l'échelle des modèles

Études de cas et scénarios appliqués

  • Analyse des médias et modération de contenu
  • Recherche et récupération dans le e-commerce et les bibliothèques numériques
  • Interaction multimodale dans la robotique et les systèmes autonomes

Conclusion et prochaines étapes

Pré requis

  • Une compréhension de l'apprentissage profond pour la vision et le TLT (Traitement du Langage Naturel)
  • De l'expérience avec PyTorch et les modèles basés sur les transformers
  • Une familiarité avec les architectures de modèles multimodaux

Public cible

  • Ingénieurs en vision par ordinateur
  • Développeurs d'IA
 14 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires