PASCAL - Pattern Analysis, Statistical Modelling and Computational Learning

Apprentissage non-supervisé pour la segmentation automatique de textes
Jean-François Pessiot, Marc Caillet, Massih Amini and Patrick Gallinari
In: CORIA 2004, 10-12 March 2004, Toulouse, France.

Abstract

Nous proposons dans cet article une approche basée sur des techniques d'apprentissage pour la segmentation automatique de texte. Nous considérons un paragraphe comme l'entité textuelle de base. Notre système découvre d'abord diffèrents concepts présents dans un texte, chaque concept étant défini par un ensemble représentatif de mots. Le texte est ensuite segmenté suivant des paragraphes en utilisant une technique de partitionnement basée sur la vraisemblance classifiante. Nous évaluons l'efficacité de cette technique sur un ensemble concaténé de paragraphes de la collection 7sectors et nous la comparons à une technique de référence proposée par Salton et al.

PDF - Requires Adobe Acrobat Reader or other PDF viewer.
EPrint Type:Conference or Workshop Item (Paper)
Project Keyword:Project Keyword UNSPECIFIED
Subjects:Information Retrieval & Textual Information Access
ID Code:433
Deposited By:Massih Amini
Deposited On:22 December 2004