Prenez contact avec nous

Plan du cours

Introduction à l'IA multimodale et à Ollama

  • Vue d'ensemble de l'apprentissage multimodal
  • Défis clés de l'intégration vision-langage
  • Capacités et architecture d'Ollama

Configuration de l'environnement Ollama

  • Installation et configuration d'Ollama
  • Travail avec le déploiement de modèles locaux
  • Intégration d'Ollama avec Python et Jupyter

Travail avec des entrées multimodales

  • Intégration texte et image
  • Incorporation d'audio et de données structurées
  • Conception de pipelines de prétraitement

Applications de compréhension de documents

  • Extraction d'informations structurées à partir de PDF et d'images
  • Combinaison de l'OCR avec des modèles de langage
  • Création de workflows intelligents d'analyse de documents

Question Answering Visuel (VQA)

  • Configuration de jeux de données et de référentiels VQA
  • Formation et évaluation de modèles multimodaux
  • Création d'applications VQA interactives

Conception d'agents multimodaux

  • Principes de conception d'agents avec raisonnement multimodal
  • Combinaison de perception, langage et action
  • Déploiement d'agents pour des cas d'usage réels

Intégration avancée et optimisation

  • Affinement (fine-tuning) de modèles multimodaux avec Ollama
  • Optimisation des performances d'inférence
  • Considérations relatives à la scalabilité et au déploiement

Résumé et prochaines étapes

Pré requis

  • Excellente compréhension des concepts d'apprentissage automatique
  • Expérience avec des frameworks d'apprentissage profond tels que PyTorch ou TensorFlow
  • Connaissance du traitement du langage naturel et de la vision par ordinateur

Public cible

  • Ingénieurs en apprentissage automatique
  • Chercheurs en IA
  • Développeurs de produits intégrant des workflows de vision et de texte
 21 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires