Articles

ADM

Imprimer

ADM : Analyse des données et modèles stochastiques

Responsable : Guillaume Gravier (mail)

Équipe pédagogique :Guillaume Gravier (mail)

Description

Dans ce module, nous faisons un rappel (une mise à niveau) des principales notions de statistique et de probabilités utiles, quelles que soient les directions de recherche choisies par la suite. Ce module se décompose en deux parties. La première intitulée, statistique et analyse de données, recouvre la statistique exploratoire, les méthodes de visualisations de données, les méthodes d’analyse factorielle et de classification hiérarchique et non hiérarchique (ces méthodes font aussi partie des outils en apprentissage non supervisé) puis l’estimation et les tests d’hypothèses. La seconde partie, intitulée modélisations stochastiques, vise à étudier quelques modèles classiques, couramment utilisés en reconnaissance des formes, et les problèmes associés comme l’estimation des paramètres. Nous y étudions les lois de probabilités classiques et les mélanges ainsi que les algorithmes d’estimation des paramètres, notamment l’algorithme EM. Enfin, nous voyons les modèles de Markov cachés (HMM), à la base de nombreux domaines applicatifs, et les techniques de programmation dynamique associées à la segmentation par HMM. Dans les deux parties, nous donnons des exemples d’applications directes dans des domaines variés comme le traitement de la parole et des images, la bioinformatique, les communications numériques, le diagnostic, etc.

Mots clé : analyse de données, clustering, processus markoviens, théorie de la décision et de l'estimation, files d'attente, test d'hypothèse

Pré-requis : quelques connaissances en algèbre linéaire et en théorie d’optimisation seraient utiles

Savoir et savoir faire associés

Savoir

  • Outils de description des données
  • Inférence statistique
  • Machine learning et classification

Savoir-faire

  • Décrire statistiquement des ensembles de données
  • Modéliser des problèmes et estimer les paramètres inconnus
  • Évaluer des résultats

Structure générale et contenu

  • Partie 1
    • Statistique descriptive : variables, données, observations, caractéristiques dans une dimension, deux et plus.
    • Probabilités : définitions et axiomes, théorème de Bayes, variables aléatoires, lois discrètes (Bernoulli, Binomiale, Poisson) et continues (exponentielle, normale à une et plusieurs dimensions)
    • Quelques méthodes de visualisation des données
    • Méthodes de réduction de dimension : analyses factorielles
    • Clustering non hiérarchique (K-means, etc.) et hiérarchique (ultramétiques, arbres de classification)
  • Partie 2
    • Rappel sur l’estimation pour les lois continues multivariées : compromis biais/variance, critères d’estimation, etc.
    • Test d’hypothèses : hypothèse nulle, hypothèse alternative, risques de première et deuxième espèce.
    • Modèles de mélanges et algorithme EM
    • Critères d’estimation dans les modèles de mélanges, apprentissage discriminant
    • Modèles de Markov cachés et files d'attente : principe, programmation dynamique, estimation des paramètres, applications

Références bibliographiques

  • Cappé O. Modèles de mélange et modèles de Markov cachés pour le traitement automatique de la parole. Notes de cours Télécom Paris, http://www.tsi.enst.fr/~cappe/pub/tap.pdf

  • Trivedi K. Probability and statistics with reliability, queuing, and computer science applications. John Wiley and Sons, New York, 2001

  • Saporta G. Probabilités, analyse des données et statistique. Technip Paris, 1990

Modalités d'évaluation

  • Examen terminal de 2h
Buy cheap web hosting service where fatcow web hosting review will give you advices and please read bluehost review for more hosting information.