Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Vue d’ensemble des technologies de reconnaissance vocale
- Histoire et évolution de la reconnaissance vocale.
- Modèles acoustiques, modèles linguistiques et décodage.
- Architectures modernes : RNN, transformers et Whisper.
Prétraitement de l’audio et bases de la transcription
- Gestion des formats audio et des fréquences d’échantillonnage.
- Nettoyage, découpage et segmentation de l’audio.
- Génération de texte à partir d’audio : en temps réel versus par lots.
Prise en main de Whisper et d’autres API
- Installation et utilisation d’OpenAI Whisper.
- Appel des API cloud (Google, Azure) pour la transcription.
- Comparaison des performances, de la latence et des coûts.
Langue, accents et adaptation au domaine
- Travail avec plusieurs langues et accents.
- Vocabulaires personnalisés et tolérance au bruit.
- Traitement du vocabulaire juridique, médical ou technique.
Formatage des résultats et intégration
- Ajout d’horodatages, de ponctuation et d’identifiants d’interlocuteurs.
- Exportation au format texte, SRT ou JSON.
- Intégration des transcriptions dans des applications ou des bases de données.
Ateliers d’implémentation de cas d’usage
- Transcription de réunions, d’entretiens ou de podcasts.
- Systèmes de commandes vocales en texte.
- Sous-titrage en temps réel de flux vidéo ou audio.
Évaluation, limitations et éthique
- Métriques de précision et comparaison des modèles.
- Biais et équité dans les modèles de parole.
- Considérations relatives à la confidentialité et à la conformité.
Résumé et prochaines étapes
Pré requis
- Une compréhension des concepts généraux de l’IA et de l’apprentissage automatique.
- Une familiarité avec les formats d’audio ou de fichiers multimédias ainsi qu’avec les outils associés.
Public visé
- Scientifiques des données et ingénieurs en IA travaillant avec des données vocales.
- Développeurs de logiciels construisant des applications basées sur la transcription.
- Organisations explorant la reconnaissance vocale pour l’automatisation.
14 Heures