logo inria

RR-5391 - Model selection in supervised classification

-----------------------
Bouchard, Guillaume - Celeux, Gilles
Rapport de recherche de l'INRIA - Futurs , Equipe : SELECT
22 pages - Novembre 2004 - Document en anglais
Titre français : Sélection de modèles en classification supervisée
-----------------------
Abstract :

This article is concerned with the selection of a generative model for supervised classification. Classical model selection criteria are assessing the fit of a model rather than its ability to produce a low classification error rate. A new criterion, the so called Bayesian Entropy Criterion (BEC) is proposed. This criterion is taking into account the decisional purpose of a model by minimizing the integrated classification entropy. It provides an interesting alternative to the cross validated error rate which is highly time consuming. The asymptotic behavior of BEC criterion is presented. Numerical experiments on both simulated and real data sets show that BEC is performing better than BIC criterion to select a model minimizing the classification error rate and is providing analogous performances than the cross validated error rate.


Résumé :

Le choix d'un modèle probabiliste pour l'analyse discriminante est l'objet de cet article. Les critères classiques de sélection de modèle privilégient l'adéquation du modèle à la distribution jointe des variables explicatives et de la variable de groupe plutà´t que la minimisation du taux d'erreur du classifieur associé. Nous proposons un nouveau critère, le Bayesian Entropy Criterion (BEC), qui permet de sélectionner un classifieur prenant en compte l'objectif décisonnel par la minimisation de l'entropie intégrée de classification. Il représente une alternative intéressante à la validation croisée qui est très coà»teuse. Les propriétés asymptotiques du critère BEC sont présentées et des expériences numériques sur des données simulées et des données réelles montrent que ce critère a un comportement meilleur que BIC pour choisir le modèle minimisant l'erreur de classification et analogue à celui de la validation croisée.

-----------------------
Key-Words : GENERATIVE CLASSIFICATION / INTEGRATED LIKELIHOOD / INTEGRATED CONDITIONAL LIKELIHOOD / CLASSIFICATION ENTROPY / CROSS VALIDATED ERROR RATE / AIC AND BIC CRITERIA
Mots-clés : MODÈLES D'ANALYSE DISCRIMINANTE / VRAISEMBLANCE INTÉGRÉE / VRAISEMBLANCE INTÉGRÉE CONDITIONNELLE / ENTROPIE DE CLASSIFICATION / VALIDATION CROISÉE / CRITÈRES AIC ET BIC
-----------------------