Les approches actuelles pour améliorer le raisonnement des LLMs suivent deux paradigmes isolés : les méthodes de surveillance-génération, qui excellent dans la planification stratégique mais manquent de mécanismes de vérification, et les approches de génération-vérification, qui affinent les résultats de manière itérative mais sans évaluation préalable de la tâche. Cette séparation crée des inefficacités, car les stratégies échouent sans retour d'information et les raffinements se font sans base stratégique. L'étude comble cette lacune en implémentant le modèle de surveillance cognitive de Flavell dans un système itératif en trois phases. Les résultats préliminaires sur GSM8K montrent une précision de 75,42 %, surpassant les méthodes existantes, tout en nécessitant moins de tentatives et avec un coût d'inférence accru de 27-37 %. Ces résultats suggèrent que la surveillance initiale produit des solutions de meilleure qualité, réduisant ainsi le besoin de raffinement, bien que des évaluations supplémentaires soient nécessaires pour établir la généralisabilité de cette approche.
L'étude a été présentée lors de l'atelier sur l'applicabilité de l'explicabilité des LLMs au raisonnement et à la planification lors de la conférence COLM 2025. Les auteurs soulignent l'importance de combiner la planification stratégique et la vérification itérative pour améliorer l'efficacité et la précision des LLMs. Les résultats préliminaires sont prometteurs, mais des recherches supplémentaires sont nécessaires pour valider cette approche dans d'autres domaines que le raisonnement arithmétique.