Interactions vocales et sonores (VAI)

Description

Une première partie du module a pour objectif de donner une vue d'ensemble des concepts fondamentaux, des spécificités, et des outils du traitement du signal audio, ainsi que de leurs applications en interaction vocale et rendu sonore. On abordera notamment le rôle de la spatialisation pour l'immersion 3D, la localisation et la séparation de sources pour l'analyse de scène, et on présentera quelques applications et champs de recherche récents. Une seconde partie du module est destinée à fournir un panorama des méthodes impliquées dans les systèmes de dialogue ou à interface vocale. La focalisation porte sur la reconnaissance de la parole, les algorithmes d’apprentissage automatique utilisés pour la compréhension et la synthèse de la parole.

Mots-clés

Traitement du signal audio; analyse de scène auditive; séparation de sources sonores; reconnaissance de la parole; synthèse de la parole; dialogue automatique; analyse sémantique partielle et robuste

Prérequis

Notions de bases en algèbre et statistiques, programmation dynamique, algorithmie et apprentissage automatique.

Contenu

Traitement du signal audio : principes et algorithmes
  • Analogique vs. numérique
  • Filtrage et convolution
  • La Transformée de Fourier (discrète, rapide, à court terme,...)
  • Autres représentations (Bancs de filtres, MFCC,...)
  • Notions de traitement du signal statistique (Stationnarité, processus Gaussiens,...)
Rendu spatial du son
  • Propagation du son (Vitesse, délai, amplitude, réflexion, absorption)
  • Réponse impulsionnelle de salle (mesure, analyse, synthèse)
  • Audition binaurale (HRTFs, indices binauraux,...)
Analyse de scène sonore
  • Localisation de sources (TDOA, GCC, MUSIC)
  • Séparation de sources (Beamforming, Modèle Gaussien local, ICA, DUET)
  • Classification audio
Modèles audio avancés et applications
  • Fusion audio-visuelle
  • Audition robotique
Reconnaissance de la parole
  • Éléments introductifs en physiologie, phonologie et linguistique
  • Formalisation statistique
  • Modèles acoustiques (HMM, DNN)
  • Modèles de langue (grammaires, n-grammes, réseaux de neurones)
  • Dictionnaire de prononciations (phonétisation, gestion de vocabulaire)
  • Évaluation (taux d’erreurs, perplexité, évaluation dans une application)
Système de dialogue et compréhension de la parole
  • Introduction aux systèmes de dialogue/ interface vocale
  • Apprentissage automatique pour la compréhension de parole (HMM, CRF, Réseau de Neurones)
Synthèse de parole
  • Pré-traitements linguistiques, phonétiques et prosodiques
  • Approches par concaténation (diphones, sélection d’unités)
  • Approches statistiques paramétriques (HMM, DNN)
  • Approches hybrides
  • Méthodologies d’évaluations objectives et perceptives

Compétences acquises

  • Fondements du traitement du signal audio (représentations temps fréquence, convolution, filtrage)
  • Algorithmes de localisation et de séparation de sources sonores
  • Introduction à la reconnaissance et synthèse de la parole
  • Ouverture à la recherche en interaction vocale et sonore

Enseignants

Frédéric Bimbot (responsable), Nancy Bertin, Antoine Deleforge