Interactions vocales et sonores (VAI)

Official homepage (with schedule)

Description

Une première partie du module a pour objectif de donner une vue d'ensemble des concepts fondamentaux, des spécificités, et des outils du traitement du signal audio, ainsi que de leurs applications en interaction vocale et rendu sonore. On abordera notamment le rôle de la spatialisation pour l'immersion 3D, la localisation et la séparation de sources pour l'analyse de scène, et on présentera quelques applications et champs de recherche récents. Une seconde partie du module est destinée à fournir un panorama des méthodes impliquées dans les systèmes de dialogue ou à interface vocale. La focalisation porte sur la reconnaissance de la parole, les algorithmes d’apprentissage automatique utilisés pour la compréhension et la synthèse de la parole.

Mots-clés

Traitement du signal audio; analyse de scène auditive; séparation de sources sonores; reconnaissance de la parole; synthèse de la parole; dialogue automatique; analyse sémantique partielle et robuste

Prérequis

Notions de bases en algèbre et statistiques, programmation dynamique, algorithmie et apprentissage automatique.

Contenu

Traitement du signal audio : principes et algorithmes

Analogique vs. numérique
Filtrage et convolution
La Transformée de Fourier (discrète, rapide, à court terme,...)
Autres représentations (Bancs de filtres, MFCC,...)
Notions de traitement du signal statistique (Stationnarité, processus Gaussiens,...)

Rendu spatial du son

Propagation du son (Vitesse, délai, amplitude, réflexion, absorption)
Réponse impulsionnelle de salle (mesure, analyse, synthèse)
Audition binaurale (HRTFs, indices binauraux,...)

Analyse de scène sonore

Localisation de sources (TDOA, GCC, MUSIC)
Séparation de sources (Beamforming, Modèle Gaussien local, ICA, DUET)
Classification audio

Modèles audio avancés et applications

Fusion audio-visuelle
Audition robotique

Reconnaissance de la parole

Éléments introductifs en physiologie, phonologie et linguistique
Formalisation statistique
Modèles acoustiques (HMM, DNN)
Modèles de langue (grammaires, n-grammes, réseaux de neurones)
Dictionnaire de prononciations (phonétisation, gestion de vocabulaire)
Évaluation (taux d’erreurs, perplexité, évaluation dans une application)

Système de dialogue et compréhension de la parole

Introduction aux systèmes de dialogue/ interface vocale
Apprentissage automatique pour la compréhension de parole (HMM, CRF, Réseau de Neurones)

Synthèse de parole

Pré-traitements linguistiques, phonétiques et prosodiques
Approches par concaténation (diphones, sélection d’unités)
Approches statistiques paramétriques (HMM, DNN)
Approches hybrides
Méthodologies d’évaluations objectives et perceptives

Compétences acquises

Fondements du traitement du signal audio (représentations temps fréquence, convolution, filtrage)
Algorithmes de localisation et de séparation de sources sonores
Introduction à la reconnaissance et synthèse de la parole
Ouverture à la recherche en interaction vocale et sonore

Enseignants

Frédéric Bimbot (responsable), Nancy Bertin, Antoine Deleforge