PASCAL - Pattern Analysis, Statistical Modelling and Computational Learning

Apprentissage automatique pour l'extraction de caractéristiques - Application au partitionnement de documents, au résumé automatique et au filtrage collaboratif
Jean-François Pessiot
(2008) PhD thesis, Université Pierre et Marie Curie (Paris 6).

Abstract

L’apprentissage statistique définit des concepts et des algorithmes permettant d’apprendre à partir des données, dans le but de faire des prédictions. Pour obtenir de bonnes performances en prédiction, le choix de la représentation des données est crucial, et a motivé le développement de méthodes permettant de modifier la représentation initiale des données. L’accès à l’information regroupe de nombreux domaines d’application pour l’apprentissage statistique, et en général, le choix de la représentation de l’infor- mation est un problème difficile. Dans cette thèse, nous étudions la problématique du choix de la représentation des données au travers de l’extraction de caractéristiques. Nous proposons d’abord un cadre formel pour l’extraction de caractéristiques, qui nous permet de distinguer trois principaux cadres d’extraction. Puis dans le cadre de l’extraction non supervisée, nous proposons deux modèles pour le cas particulier des données textuelles. Nous validons nos modèles sur deux tâches en recherche d’information : le clustering de documents et le résumé automatique de texte. Nous proposons également un cadre de travail unifié pour étudier le problème nouveau de l’extraction de caractéristiques multi-tâches. Ce cadre nous permet de proposer des algorithmes d’apprentissage pour la régression multi-tâches et pour l’ordonnancement d’instances multi-tâches. Nous appliquons nos deux modèles au filtrage collaboratif, d’abord vu comme un problème de prédiction de notes, puis comme un problème de prédiction d’ordre. Cette deuxième formulation est plus adaptée au problème de la recommandation, où l’ordre entre les articles est plus important que les notes elles-mêmes.

PDF - Requires Adobe Acrobat Reader or other PDF viewer.
EPrint Type:Thesis (PhD)
Project Keyword:Project Keyword UNSPECIFIED
Subjects:Learning/Statistics & Optimisation
Information Retrieval & Textual Information Access
ID Code:5509
Deposited By:Jean-François Pessiot
Deposited On:26 December 2009