PASCAL - Pattern Analysis, Statistical Modelling and Computational Learning

Résumé Automatique de Texte avec un Algorithme d'Ordonnacement
Nicolas Usunier, Massih Amini and Nicolas Usunier
Ingénierie des Systèmes d'Information Volume 11, Number 2, pp. 71-91, 2006.

Abstract

Dans cet article, nous proposons une nouvelle approche pour le résumé automatique de textes utilisant un algorithme d'apprentissage numérique spécifique à la tâche d'ordonnancement. Les précédentes approches d'apprentissage pour le résumé automatique définissaient un ensemble de caractéristiques permettant d'associer à chaque phrase un vecteur de scores, puis d'entraîner un classifieur afin d'obtenir une combinaison de ces scores. L'objectif est d'extraire les phrases d'un document qui sont les plus représentatives de son contenu. Cependant, des résultats théoriques récents suggèrent que le critère de classification peut être sous-optimal pour apprendre des fonctions de score. Ainsi, nous proposons d'utiliser le cadre offert par les algorithmes d'ordonnancement, qui permettent d'apprendre des combinaisons des caractéristiques en se concentrant sur les scores relatifs des phrases d'un même document. Les caractéristiques que nous utilisons sont basées sur l'état de l'art, mais aussi sur une nouvelle approche utilisant des groupements de mots qui co-occurrent dans les mêmes documents. Nous montrons empiriquement que les nouvelles caractéristiques, ainsi que la nouvelle approche d'apprentissage, obtiennent des résultats meilleurs que les approches précédentes sur deux corpus distincts.

PDF - Requires Adobe Acrobat Reader or other PDF viewer.
EPrint Type:Article
Project Keyword:Project Keyword UNSPECIFIED
Subjects:Information Retrieval & Textual Information Access
ID Code:2640
Deposited By:Massih Amini
Deposited On:22 November 2006