Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Introduction à la Multimodalité de Gemini 3
- Capacités sur le texte, les images, l'audio et la vidéo
- Sélection de modèles et aperçu des points d'entrée
- Concepts clés en raisonnement multimodal
Travailler avec du Texte et des Entrées Structurées
- Stratégies de prompting pour la génération de texte
- Métadonnées, fenêtres de contexte et plongements (embeddings)
- Orchestration textuelle des tâches multimodales
Compréhension des Images et Workflows Visuels
- Analyse et interprétation d'images avec Gemini 3
- Création d'outils de recherche visuelle et de marquage (tagging)
- Construction d'interactions image-texte et texte-image
Traitement des Entrées Audio
- Flux de travail de reconnaissance vocale et de transcription
- Détection et interprétation d'événements audio
- Intégration de l'audio avec des entrées textuelles et visuelles
Intelligence Vidéo et Analyse de Scènes
- Raisonnement vidéo par frame et continu
- Construction d'outils de résumé et d'extraction de points forts (highlights)
- Automatisation et workflows de contenu basés sur la vidéo
Conception d'Architectures d'Applications Multimodales
- Combinaison de plusieurs types d'entrées dans un seul pipeline
- Considérations sur la latence, le coût et les performances computationnelles
- Meilleures pratiques pour des systèmes multimodaux scalables
Prototypage d'Applications Multimodales
- Création en mains propres de prototypes multimodaux
- Itération rapide avec l'ingénierie des prompts
- Test et affinement des flux d'expérience utilisateur
Déploiement de Solutions Multimodales
- Stratégies de déploiement et configuration de l'environnement
- Surveillance des performances en conditions réelles
- Considérations sur la sécurité et la conformité
Résumé et Prochaines Étapes
Pré requis
- Une compréhension des concepts modernes d'IA
- Une expérience avec Python ou JavaScript
- Une familiarité avec les API REST
Public Cible
- Concepteurs
- Créateurs de contenu
- Équipes techniques de produits
14 Heures
Nos clients témoignent (1)
Fluidez, ambiance et sujet de la présentation
Lukasz Kowalczyk - Allegro Sp. z o.o.
Formation - Google Gemini AI for Data Analysis
Traduction automatique