Prenez contact avec nous

Plan du cours

Introduction à la synthèse vocale et au clonage de voix

  • Aperçu de la synthèse vocale (TTS) et de la synthèse vocale neuronale
  • Clonage de voix versus génération de parole : cas d'utilisation et limites
  • Modèles clés : Tacotron, WaveNet, FastSpeech, VITS

Utilisation des plateformes commerciales

  • Utilisation d'ElevenLabs et de Resemble AI
  • Création, clonage et édition de voix
  • Accès API et workflows de synthèse vocale (TTS)

Développement avec des outils open-source

  • Installation et configuration de Coqui TTS
  • Formation de voix personnalisées et gestion des ensembles de données
  • Génération de parole avec un contrôle fin (tonalité, vitesse, émotion)

Préparation des données et gestion des ensembles de données vocales

  • Collecte et nettoyage des échantillons vocaux
  • Segmentage, étiquetage et alignement des transcriptions
  • Sourcing éthique et consentement pour la voix

Intégration aux applications

  • Intégration de la synthèse vocale (TTS) dans les sites web et les applications
  • Création de systèmes IVR et de bots interactifs
  • Génération de dialogues synthétiques pour la vidéo et les jeux

Évaluation de la qualité et du réalisme

  • Score moyen d'appréciation (MOS) et tests d'intelligibilité
  • Contrôle de l'expressivité et de la prosodie
  • Comparaison de la latence, de la fidélité et du réalisme

Considérations éthiques, légales et de gouvernance

  • Risques de deepfakes et utilisation responsable
  • Consentement, attribution et implications en matière de droits d'auteur
  • Réglementations et politiques organisationnelles

Synthèse et prochaines étapes

Pré requis

  • Compréhension des fondamentaux de l'apprentissage automatique
  • Familiarité avec les formats de fichiers audio et les outils d'édition
  • Compétences de base en programmation Python

Public cible

  • Développeurs et ingénieurs en IA intéressés par la synthèse vocale
  • Créateurs de contenu et technologistes des médias explorant la génération de voix
  • Équipes R&D développant des systèmes audio personnalisés ou dynamiques
 14 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires