Prenez contact avec nous

Plan du cours

Vue d’ensemble des technologies de reconnaissance vocale

  • Histoire et évolution de la reconnaissance vocale.
  • Modèles acoustiques, modèles linguistiques et décodage.
  • Architectures modernes : RNN, transformers et Whisper.

Prétraitement de l’audio et bases de la transcription

  • Gestion des formats audio et des fréquences d’échantillonnage.
  • Nettoyage, découpage et segmentation de l’audio.
  • Génération de texte à partir d’audio : en temps réel versus par lots.

Prise en main de Whisper et d’autres API

  • Installation et utilisation d’OpenAI Whisper.
  • Appel des API cloud (Google, Azure) pour la transcription.
  • Comparaison des performances, de la latence et des coûts.

Langue, accents et adaptation au domaine

  • Travail avec plusieurs langues et accents.
  • Vocabulaires personnalisés et tolérance au bruit.
  • Traitement du vocabulaire juridique, médical ou technique.

Formatage des résultats et intégration

  • Ajout d’horodatages, de ponctuation et d’identifiants d’interlocuteurs.
  • Exportation au format texte, SRT ou JSON.
  • Intégration des transcriptions dans des applications ou des bases de données.

Ateliers d’implémentation de cas d’usage

  • Transcription de réunions, d’entretiens ou de podcasts.
  • Systèmes de commandes vocales en texte.
  • Sous-titrage en temps réel de flux vidéo ou audio.

Évaluation, limitations et éthique

  • Métriques de précision et comparaison des modèles.
  • Biais et équité dans les modèles de parole.
  • Considérations relatives à la confidentialité et à la conformité.

Résumé et prochaines étapes

Pré requis

  • Une compréhension des concepts généraux de l’IA et de l’apprentissage automatique.
  • Une familiarité avec les formats d’audio ou de fichiers multimédias ainsi qu’avec les outils associés.

Public visé

  • Scientifiques des données et ingénieurs en IA travaillant avec des données vocales.
  • Développeurs de logiciels construisant des applications basées sur la transcription.
  • Organisations explorant la reconnaissance vocale pour l’automatisation.
 14 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires