PASCAL - Pattern Analysis, Statistical Modelling and Computational Learning

Application de l'apprentissage par renforcement a la gestion du risque
Olivier Teytaud
Journal Electronique d'Intelligence Artificielle Volume Volume 6, pp. 1-23, 2004.

Abstract

La programmation dynamique stochastique est un principe de décomposition classique pour l'optimisation dynamique. Elle permet l'optimisation de tout critère séparable. En particulier, l'espérance est un critère séparable. Par contre, l'ajout d'une prise en compte du risque par une mesure de type Value-At-Risk rend le problème non séparable, donc le traitement par programmation dynamique stochastique standard est impossible. Cet article présente une application de techniques d'apprentissage par renforcement compatibles avec un critère non séparable. La mise en oeuvre pratique est faite dans le cadre de la production électrique par le parc de production thermo-hydraulique d'EdF. Les courbes de Value-At-Risk obtenues montrent le succès de l'approche : augmenter le paramètre alpha du critère (1 - alpha)E + alphaVaR conduit à des risques plus faibles.

PDF - Requires Adobe Acrobat Reader or other PDF viewer.
EPrint Type:Article
Additional Information:(in French)
Project Keyword:Project Keyword UNSPECIFIED
Subjects:Learning/Statistics & Optimisation
ID Code:635
Deposited By:Olivier Teytaud
Deposited On:29 December 2004