PASCAL - Pattern Analysis, Statistical Modelling and Computational Learning

Classication Automatique de Documents Structurés. Application au Corpus d'Arbres Etiquetés XML
guillaume Wisniewski, Ludovic Denoyer and Patrick Gallinari
In: CORIA 2005, 9-11 Mar 2005, France.

Abstract

Le domaine de la Recherche d’Information Structurée (RIS) est un domaine qui émerge avec l’arrivée de données semi structurées comme les documents XML. Ce domaine, à travers l’initiative INEX, concerne principalement le développement de moteurs de recherche documentaire. Aujourd’hui, il est nécessaire de développer des modèles pour le traitement de différentes problématiques dans les documents structurés comme la discrimination ou la restructuration. Dans cet article, nous nous intéressons à la classification automatique de documents XML en fonction de leur régularités structurelles. Nous proposons de modéliser la structure des documents XML par un réseau bayésien qui permet de prendre en compte différentes dépendances entres les unités structurelles du document. Nous présentons les résultats de nos différents modèles sur le corpus INEX et voyons ensuite comment un de nos modèles permet de déterminer un représentant de chacune des classes obtenues sous forme d’une DTD probabiliste. ABSTRACT. The widespread use of XML has urged the need to develop tools to efficiently store, access and organize XML corpus. The INEX initiative has resulted in major improvements in XML retrieval systems, but today, related tasks, like categorization or structure matching, should be investigated. We consider here the problem of clustering XML documents using their structure. In this paper, we propose a Belief networks-based stochastic model which is able to describe different kind of relation between structural elements. We show how these models can be used for the clustering task. We test them both using the INEX corpus and an artificial corpus of XML documents.

EPrint Type:Conference or Workshop Item (Paper)
Project Keyword:Project Keyword UNSPECIFIED
Subjects:Learning/Statistics & Optimisation
Natural Language Processing
Information Retrieval & Textual Information Access
ID Code:1437
Deposited By:Ludovic Denoyer
Deposited On:28 November 2005