PASCAL - Pattern Analysis, Statistical Modelling and Computational Learning

Apprentissage de fonctions d’ordonnancement avec peu d’exemples étiquetés: une application au routage d’information, au résumé de textes et au filtrage collaboratif
Tuong-Vinh Truong
(2009) PhD thesis, Université Pierre et Marie Curie.

Abstract

La communauté d'apprentissage s'est récemment intéressée aux fonctions d'ordonnancement. Ces fonctions cherchent à comparer les entrées entre elles et à les retourner sous la forme d'une liste ordonnée. Cependant, l'apprentissage nécessite une grande base de données étiquetées, dont la création est en général coûteuse. Dans ce mémoire, nous avons cherché à réduire le nombre d’exemples étiquetés pour l’apprentissage des fonctions d’ordonnancement. Nous avons abordé cette problématique sous deux angles différents. En premier lieu, nous avons cherché à améliorer les performances en apprentissage supervisé en exploitant l’information contenue dans un grand nombre de données non étiquetées. Ce cadre est connu sous le terme d’apprentissage semi-supervisé. En deuxième lieu, nous avons considéré l’apprentissage actif, dont le but est de construire itérativement la base d’apprentissage. L’objectif est de sélectionner les meilleures entrées à étiqueter pour réduire au maximum le nombre de données étiquetées. Dans une première partie, nous présentons nos modèles en apprentissage semi-supervisé puis actif pour l’ordonnancement dit biparti. Nos modèles sont des extensions des méthodes SVM et de boosting. Nous nous sommes notamment intéressés à développer des modèles de faible complexité pour pouvoir traiter un grand nombre de données non–étiquetées. Dans une deuxième partie, nous considérons plusieurs applications de recherche en information touchées par notre problématique : le routage d’information, le résumé automatique de textes et le filtrage collaboratif. Cette partie permet de valider nos modèles et de montrer l’intérêt de l’ordonnancement pour le filtrage collaboratif.

PDF - Requires Adobe Acrobat Reader or other PDF viewer.
EPrint Type:Thesis (PhD)
Project Keyword:Project Keyword UNSPECIFIED
Subjects:Theory & Algorithms
Information Retrieval & Textual Information Access
ID Code:5487
Deposited By:Tuong-Vinh Truong
Deposited On:19 November 2009