|
Apprentissage statistique et programmation génétique : la croissance du code est-elle inévitable? AbstractLe "Code bloat", l'augmentation inconsid\'er\'ee de la taille du code, est un probl\`eme fondamental en programmation g\'en\'etique (GP). Ce papier propose une analyse th\'eorique du bloat dans le cadre de la r\'egression symbolique en GP, du point de vue de la th\'eorie statistique de l'apprentissage. Deux sortes de bloat sont distingu\'ees, selon que le concept soit dans l'espace de recherche ou non. Des r\'esultats importants sont prouv\'es \`a partir de r\'esultats classiques de th\'eorie de l'apprentissage. Pr\'ecis\'ement, la dimension VC des programmes est calcul\'ee, et des r\'esultats classiques de th\'eorie de l'apprentissage permettent alors de d\'eduire des propri\'et\'es de consistance universelle. Nous montrons alors que choisir a priori une taille de programme selon le nombre d'exemples, bien que conduisant \`a la consistance universelle, conduit \`a un ph\'enom\`ene de bloat, alors qu'une fitness ad\'equatement modifi\'ee permet de l'\'eviter tout en pr\'eservant la consistance universelle.
[Edit] |