Prenez contact avec nous

Plan du cours

Fondamentaux de la classification audio

  • Types d'événements sonores : environnementaux, mécaniques, générés par l'homme
  • Présentation des cas d'utilisation : vidéosurveillance, surveillance, automatisation
  • Classification audio vs détection vs segmentation

Données audio et extraction de caractéristiques

  • Types de fichiers audio et formats
  • Considérations relatives à la fréquence d'échantillonnage, au fenêtrage et à la taille des trames
  • Extraction des MFCC, des caractéristiques chroma et des mel-spectrogrammes

Préparation des données et annotation

  • Bases de données UrbanSound8K, ESC-50 et ensembles de données personnalisés
  • Étiquetage des événements sonores et des limites temporelles
  • Équilibrage des ensembles de données et augmentation audio

Construction de modèles de classification audio

  • Utilisation des réseaux de neurones convolutifs (CNN) pour l'audio
  • Entrée du modèle : onde brute vs caractéristiques
  • Fonctions de perte, métriques d'évaluation et surapprentissage

Détection d'événements et localisation temporelle

  • Stratégies de détection par trame et par segment
  • Post-traitement des détections à l'aide de seuils et de lissage
  • Visualisation des prédictions sur les lignes temporelles audio

Sujets avancés et traitement en temps réel

  • Apprentissage par transfert pour les scénarios à faible donnée
  • Déploiement de modèles avec TensorFlow Lite ou ONNX
  • Traitement de l'audio en streaming et considérations de latence

Développement du projet et scénarios d'application

  • Conception d'un pipeline complet : de l'ingestion à la classification
  • Développement d'un prototype pour la vidéosurveillance, le contrôle qualité ou la surveillance
  • Journalisation, alertes et intégration avec des tableaux de bord ou des API

Résumé et prochaines étapes

Pré requis

  • Une compréhension des concepts de l'apprentissage automatique et de l'entraînement des modèles
  • De l'expérience en programmation Python et en prétraitement des données
  • Une familiarité avec les fondamentaux de l'audio numérique

Public cible

  • Scientifiques des données
  • Ingénieurs en apprentissage automatique
  • Chercheurs et développeurs en traitement du signal audio
 21 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires