PASCAL - Pattern Analysis, Statistical Modelling and Computational Learning

Restructuration Automatique de Documents dans les Corpus Semi Structurés Hétérogènes
guillaume Wisniewski, Ludovic Denoyer and Patrick Gallinari
EGC 2005.

Abstract

L’interrogation de grandes bases de documents semi-structurés (type XML) est un problème ouvert important. En effet, pour interroger un document dont le schéma est nouveau, un système doit pouvoir soit adapter la requête posée au document, soit adapter le document pour pouvoir lui appliquer la requête. Nous nous positionnons ici dans le cadre de la restructuration de documents qui consiste à transformer des documents semi-structurés issus de diverses sources dans un schéma de médiation connu. Nous proposons un cadre statistique général à la problématique de la restructuration de documents et détaillons une instance d’un modèle stochastique de documents structurés appliquée à cette problématique. Nous détaillons enfin un ensemble d’expériences effectuées sur les documents du corpus INEX afin de mesurer la capacité de notre modèle.

PDF - Requires Adobe Acrobat Reader or other PDF viewer.
EPrint Type:Article
Project Keyword:Project Keyword UNSPECIFIED
Subjects:Learning/Statistics & Optimisation
Natural Language Processing
Information Retrieval & Textual Information Access
ID Code:1435
Deposited By:Ludovic Denoyer
Deposited On:28 November 2005