Prenez contact avec nous

Plan du cours

Introduction aux modèles multimodaux Mistral

  • Aperçu des modèles Mistral Medium et de leurs capacités multimodales
  • Modèles OCR/document et cas d'utilisation
  • Intégration avec les écosystèmes open-source

Pipelines OCR et Vision

  • Fondamentaux de l'OCR avec les modèles Mistral
  • Prétraitement des images et des documents scannés
  • Extraction de texte structuré à partir d'images

Compréhension de documents

  • Conception de pipelines NLP pour les documents
  • Reconnaissance d'entités, résumé et classification
  • Lien cross-modal entre les données textuelles et visuelles

Applications de recherche et de connaissances

  • Systèmes de recherche text-image
  • Mise en place de la recherche sémantique avec des sorties OCR
  • Référentiels de documents d'entreprise

Applications d'assistance et interactives

  • Conception d'interfaces utilisateur pour assistants multimodaux
  • Applications d'accessibilité (par exemple, vision vers texte)
  • Outils de productivité concrets

Performance et optimisation

  • Montée en charge des pipelines multimodaux
  • Ajustement des performances d'inférence
  • Évaluation des compromis entre précision et efficacité

Études de cas et perspectives futures

  • Applications industrielles de l'IA multimodale
  • Tendances de recherche en OCR et IA documentaire
  • Considérations relatives à une IA responsable dans les tâches vision-texte

Résumé et prochaines étapes

Pré requis

  • Compréhension des concepts de traitement du langage naturel
  • Expérience avec Python et les frameworks d'apprentissage automatique (ML)
  • Connaissance des bases de la vision par ordinateur

Audience cible

  • Équipes produit
  • Chercheurs en ML
  • Ingénieurs en ML appliqués
 14 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires