L’apprentissage par renforcement (RL) se heurte à un défi majeur : la spécification des fonctions de récompense, souvent définies de manière imprécise, ce qui peut entraîner des comportements indésirables ou dangereux. Traditionnellement, ces fonctions sont traitées comme des boîtes noires associant des paires état-action à des valeurs scalaires, sans expliquer la logique sous-jacente. Cette opacité limite l’interprétabilité et complique l’apprentissage, notamment pour des tâches complexes nécessitant une mémoire ou des dépendances temporelles.

Pour remédier à cela, les Reward Machines (RM) ont été introduites : elles modélisent les fonctions de récompense sous forme d’automates finis, permettant de représenter des récompenses structurées et non-markoviennes. Cependant, leur expressivité reste limitée aux langages réguliers, les empêchant de capturer des comportements plus sophistiqués, comme le comptage d’événements ou des conditions paramétrées. Cette restriction pose problème pour des applications exigeant une mémoire ou des raisonnements contextuels avancés.

Les auteurs proposent une approche innovante en s’appuyant sur le Runtime Monitoring Language (RML), un langage conçu pour la vérification en temps réel de propriétés temporelles. En intégrant la mémoire native du RML, ils étendent les capacités des Reward Machines pour spécifier des récompenses adaptées à des tâches non régulaires et non-markoviennes. Cette méthode permet notamment de gérer des événements dynamiques, des comptages ou des paramètres variables, dépassant ainsi les limites des RM classiques. Des expériences illustrent son expressivité supérieure, ainsi que sa flexibilité dans la définition de tâches et la gestion d’événements, comparée aux approches existantes.

L’étude souligne également des avantages pratiques, comme une meilleure adaptabilité aux changements de spécifications ou une interprétation plus intuitive des récompenses, grâce à la structure explicite du RML. En combinant les forces des automates et d’un langage de monitoring riche, cette approche ouvre des perspectives pour des applications en RL où la précision et la transparence des récompenses sont critiques, tout en offrant un cadre formel pour analyser et déboguer les politiques d’apprentissage. Les résultats suggèrent un potentiel significatif pour des domaines comme la robotique ou les systèmes autonomes, où les tâches impliquent souvent des dépendances temporelles complexes.