PASCAL - Pattern Analysis, Statistical Modelling and Computational Learning

Décodage conceptuel : co-articulation des processus de transcription et compréhension dans les systèmes de dialogue
Christian Raymond
(2005) PhD thesis, University of Avignon.

Abstract

La reconnaissance automatique de la parole utilise le plus souvent une approche statistique ; qu’il s’agisse d’applications de dictée vocale ou de systèmes de dialogue. Mais dans le cas de dictée vocale, le langage parlé est similaire au langage écrit, les modèles de langage statistique N-grammes utilisés peuvent donc être construits sur la base de corpus de taille conséquente (ex : corpus journalistiques). Le langage utilisé dans des applications de dialogue est soumis aux caractéristiques du langage parlé naturel, c’est à dire la présence d’hésitation, de reprise, de fautes grammaticales, ainsi qu’à un vocabulaire bien spécifique à l’application. Les modèles de langage pour ce genre d’application doivent être établis sur la base de corpus spécialisés qui sont long et coûteux à construire. Il en résulte des taux d’erreurs de reconnaissance assez élevés. Dans les applications de dialogue, l’objectif n’est pas de transcrire mais de comprendre le message porté par le signal. La transcription n’est qu’une étape intermédiaire nécessaire. La compréhension d’un message se fait par l’analyse de cette transcription, généralement par des grammaires sémantiques modélisant des relations entre les concepts élémentaires présent dans la phrase. Ces concepts élémentaires sont des mots ou des séquences de mots ayant un sens pour le système (e.g. lieu, date, prix, etc.). Or la transcription est effectuée à l’aide de modèles acoustique et linguistique à contraintes réduites (Ngrammes), ceci entraîne que le processus de reconnaissance peut générer des phrases hors-domaine. Si la transcription est utilisée pour établir la compréhension du message, la compréhension peut être utilisée pour guider le processus de transcription vers des phrases ayant un sens vis à vis du système. Les systèmes de dialogue auxquels nous nous intéressons sont les systèmes de dialogue, tels les serveurs vocaux, fonctionnant sur une tâche finalisée dans un domaine particulier. Dans ces systèmes, le langage est limité au domaine de l’application et la sémantique est définie et restreinte. Afin de tenter d’améliorer la qualité de la transcription et de se concentrer sur les zones porteuse de sens, nous proposons dans le chapitre 5 un modèle de langage de niveau conceptuel assurant la correspondance mots/concept, permettant d’enrichir l’espace de recherche de la meilleure transcription par des informations utiles à la compréhension. Un processus de décodage y est présenté qui aboutit à une liste structurée des N-meilleures interprétations possibles (i.e. ensemble de concepts) associées à leur meilleure transcription qui ne sont pas redondantes pour le système du point de vue du sens exprimé. Il est primordial dans les systèmes de dialogue à cause des erreurs fréquentes de reconnaissance de pouvoir diagnostiquer la qualité de cette reconnaissance afin de ne pas orienter le dialogue dans un mauvais sens et d’éviter le mécontentement de l’utilisateur. Nous proposons dans le chapitre 6 différentes mesures de confiance applicable sur la sortie de reconnaissance. Ces mesures faisant appel à différentes sources de connaissances, linguistique, acoustique ou sémantique, permettent de diagnostiquer la sortie du module de RAP à différents niveaux, mot, concept et phrase. Dans le chapitre 7 nous proposons une stratégie de validation de notre sortie de décodage (i.e. notre liste structurée) basée sur des consensus de classifieurs automatiques entraînés sur les différentes mesures de confiance présentées. Cette stratégie permet d’isoler des situations de confiance permettant de guider les gestionnaire de dialogue dans les choix à effectuer pour la gestion du dialogue.

EPrint Type:Thesis (PhD)
Project Keyword:Project Keyword UNSPECIFIED
Subjects:Natural Language Processing
Speech
ID Code:1828
Deposited By:Fréderic Béchet
Deposited On:29 November 2005