|
Application de l'apprentissage par renforcement a la gestion du risque AbstractLa programmation dynamique stochastique est un principe de décomposition classique pour l'optimisation dynamique. Elle permet l'optimisation de tout critère séparable. En particulier, l'espérance est un critère séparable. Par contre, l'ajout d'une prise en compte du risque par une mesure de type Value-At-Risk rend le problème non séparable, donc le traitement par programmation dynamique stochastique standard est impossible. Cet article présente une application de techniques d'apprentissage par renforcement compatibles avec un critère non séparable. La mise en oeuvre pratique est faite dans le cadre de la production électrique par le parc de production thermo-hydraulique d'EdF. Les courbes de Value-At-Risk obtenues montrent le succès de l'approche : augmenter le paramètre alpha du critère (1 - alpha)E + alphaVaR conduit à des risques plus faibles.
[Edit] |