Cursusaanbod

Overzicht van Spraakherkenningstechnologieën

  • Geschiedenis en evolutie van spraakherkenning
  • Acoustische modellen, taalmodellen en decoding
  • Moderne architecturen: RNNs, transformers en Whisper

Audio-preprocessing en Basis van Transcriptie

  • Omgaan met audioformaten en sample rates
  • Opknappen, knippen en segmenteren van audio
  • Tekst genereren uit audio: real-time vs batch

Handson met Whisper en Andere APIs

  • Installeren en gebruiken van OpenAI Whisper
  • Oproepen van cloud-APIs (Google, Azure) voor transcriptie
  • Vergelijken van prestaties, latentie en kosten

Taal, Accenten en Domeinadaptatie

  • Werken met meertalige omgevingen en accenten
  • Aangepaste woordenschat en geluidstolerantie
  • Hanteren van juridische, medische of technische taal

Uitvoerformatering en Integratie

  • Tijdstempels, interpunctie en sprekerslabels toevoegen
  • Exporteren naar tekst-, SRT- of JSON-formaten
  • Transcripties integreren in apps of databases

Implementatielabs voor Gebruikscasussen

  • Vergaderingen, interviews of podcasts transcripteren
  • Commandosystemen op basis van stem-naar-tekst
  • Real-time ondertiteling voor video-/audiostreams

Evaluatie, Beperkingen en Ethiek

  • Nauwkeurigheidsmetrieken en modelbenchmarking
  • Biasedheid en eerlijkheid in spraakmodellen
  • Privacy- en conformiteitsoverwegingen

Samenvatting en Volgende Stappen

Vereisten

  • Een begrip van algemene AI- en machine learningconcepten
  • Vertrouwd zijn met audi- of mediabestandsformaten en -tools

Doelgroep

  • Datawetenschappers en AI-ingenieurs die werken met stemgegevens
  • Softwareontwikkelaars die transcriptiegerichte toepassingen bouwen
  • Organisaties die spraakherkenning voor automatisering verkennen
 14 Uren

Aantal deelnemers


Prijs per deelnemer

Voorlopige Aankomende Cursussen

Gerelateerde categorieën