PASCAL - Pattern Analysis, Statistical Modelling and Computational Learning

Apprentissage de Fonctions d'ordonnancement et de classification avec des données partiellement étiquetées
Massih Amini
(2007) Other thesis, University of Pierre et Marie Curie (Paris 6).

Abstract

Avec le développement des technologies d'information on assiste depuis quelques années à une nouvelle impulsion pour la conception de nouveaux cadres d'apprentissage automatique. C'est le cas par exemple du paradigme semi-supervisé qui a vu le jour vers la fin des années 90 dans la communauté apprentissage. Les premiers travaux dans ce cadre ont été motivés par le développement du web qui a entraîné une production massive de données textuelles très hétérogènes. Ces masses de données sont généralement livrées sous forme brute, sans étiquetage a priori et pour les exploiter on était alors réduit à utiliser des techniques non-supervisées. Ces approches bien que totalement génériques ne permettent cependant qu'une analyse limitée des informations de contenu et ne répondent pas ainsi aux demandes de nombreuses tâches de Recherche d'Information (RI). L'idée pragmatique développée pour l'apprentissage semi-supervisé était née de la question; "comment réduire l'effort d'étiquetage et utiliser simultanément une petite quantité de données étiquetées avec la masse de données non-étiquetées disponible pour apprendre?" Un autre exemple de l'émergence de nouveaux cadres d'apprentissage concerne le développement de méthodes automatiques pour la recherche et l'ordonnancement d'entités d'information sur des corpus de grandes tailles. Récemment beaucoup de travaux se sont intéressés à la formulation des différentes formes de la tâche d'ordonnancement. Ces travaux ont proposé des algorithmes et développé des cadres théoriques pour la prédiction d'ordres totaux ou partiels sur les exemples. La Recherche d'Information est une fois encore le domaine par excellence où les modèles d'apprentissage de fonctions d'ordonnancement jouent un rôle prépondérant. Dans notre étude nous nous sommes intéressés à deux cadres d'ordonnancement d'instances et d'alternatives. Dans le premier cas il s'agit d'ordonner les exemples (où instances) d'une collection donnée de façon à ce que les exemples jugés pertinents soient ordonnés au--dessus des exemples non--pertinents et dans le second cas nous cherchons à ordonner les alternatives d'une collection donnée par rapport à chaque exemple d'entrée. Ce mémoire présente mes travaux de recherche depuis ma thèse soutenue en 2001 suivant les deux axes d'apprentissage semi-supervisé et d'apprentissage de fonctions d'ordonnancement évoqués plus haut. J'ai commencé à m'intéresser à la problématique d'apprentissage semi-supervisé pour la classification à la fin de ma thèse jusqu'à fin 2003. En 2004 et 2005 j'ai abordé la problématique d'apprentissage supervisé de fonctions d'ordonnancement avec comme application phare le résumé automatique de textes. En 2006 je me suis intéressé à l'apprentissage actif de fonctions l'ordonnancement et nous avons été parmi les premiers à proposer un cadre théorique pour l'apprentissage actif de fonctions d'ordonnancement d'alternatives.

PDF - Requires Adobe Acrobat Reader or other PDF viewer.
??
EPrint Type:Thesis (Other)
Project Keyword:Project Keyword UNSPECIFIED
Subjects:Learning/Statistics & Optimisation
Theory & Algorithms
ID Code:3534
Deposited By:Massih Amini
Deposited On:11 February 2008