Les processus de décision markoviens traditionnels visent à maximiser l'espérance des récompenses cumulées sur un horizon défini, mais cette approche peut s'avérer insuffisante dans de nombreuses applications où les décideurs s'intéressent davantage à des mesures de risque spécifiques. Le processus de décision markovien quantile proposé dans cette recherche permet d'optimiser directement les quantiles des récompenses cumulées, offrant ainsi un cadre plus adapté pour la prise de décision en environnement incertain.

Les auteurs fournissent des résultats analytiques caractérisant la fonction de valeur optimale du QMDP et présentent un algorithme basé sur la programmation dynamique pour résoudre la politique optimale. Cet algorithme s'étend également aux problèmes MDP avec un objectif de valeur à risque conditionnelle, élargissant ainsi son applicabilité à divers contextes décisionnels où la gestion du risque est primordiale.

La pertinence pratique du modèle est illustrée à travers une application concrète au problème d'initiation du traitement contre le VIH, où les patients doivent équilibrer les bénéfices potentiels et les risques associés au traitement. Cette application démontre l'utilité du QMDP pour les décisions médicales complexes nécessitant une évaluation nuancée des compromis entre efficacité et sécurité.