Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Introduction aux modèles multimodaux Mistral
- Aperçu des modèles Mistral Medium et de leurs capacités multimodales
- Modèles OCR/document et cas d'utilisation
- Intégration avec les écosystèmes open-source
Pipelines OCR et Vision
- Fondamentaux de l'OCR avec les modèles Mistral
- Prétraitement des images et des documents scannés
- Extraction de texte structuré à partir d'images
Compréhension de documents
- Conception de pipelines NLP pour les documents
- Reconnaissance d'entités, résumé et classification
- Lien cross-modal entre les données textuelles et visuelles
Applications de recherche et de connaissances
- Systèmes de recherche text-image
- Mise en place de la recherche sémantique avec des sorties OCR
- Référentiels de documents d'entreprise
Applications d'assistance et interactives
- Conception d'interfaces utilisateur pour assistants multimodaux
- Applications d'accessibilité (par exemple, vision vers texte)
- Outils de productivité concrets
Performance et optimisation
- Montée en charge des pipelines multimodaux
- Ajustement des performances d'inférence
- Évaluation des compromis entre précision et efficacité
Études de cas et perspectives futures
- Applications industrielles de l'IA multimodale
- Tendances de recherche en OCR et IA documentaire
- Considérations relatives à une IA responsable dans les tâches vision-texte
Résumé et prochaines étapes
Pré requis
- Compréhension des concepts de traitement du langage naturel
- Expérience avec Python et les frameworks d'apprentissage automatique (ML)
- Connaissance des bases de la vision par ordinateur
Audience cible
- Équipes produit
- Chercheurs en ML
- Ingénieurs en ML appliqués
14 Heures