Cette étude théorique explore le lien entre la probabilité interne et la cohérence interne dans le raisonnement des grands modèles de langage (LLMs), en se concentrant sur les méthodes d’augmentation à l’inférence (test-time scaling), qui améliorent leurs performances en allouant davantage de ressources computationnelles. Parmi ces approches, les méthodes basées sur l’échantillonnage — comme la génération de multiples chemins de raisonnement pour une même entrée — ont démontré une efficacité pratique, mais leur fondement théorique reste peu étudié.

Les auteurs proposent un cadre analytique inédit, ancré dans l’estimation de la confiance, pour évaluer deux paradigmes dominants : la cohérence interne (self-consistency), qui sélectionne la réponse la plus fréquente parmi plusieurs inférences, et la perplexité, qui privilégie les chemins de raisonnement associés aux probabilités les plus élevées. Leur analyse révèle des limites majeures : la cohérence interne souffre d’une erreur d’estimation élevée (liée à la variabilité des échantillons), tandis que la perplexité présente une erreur de modélisation significative et une dégradation potentielle de la convergence de l’erreur d’estimation, surtout lorsque les probabilités attribuées aux chemins sont mal calibrées.

Pour pallier ces défauts, l’étude introduit RPC (Reasoning with Perplexity Consistency), une méthode hybride combinant les forces des deux approches. RPC repose sur deux mécanismes clés : la Consistance par Perplexité, qui fusionne les avantages de la cohérence interne et de la perplexité pour accélérer la convergence de l’erreur d’estimation (passant d’un rythme linéaire à exponentiel) tout en maintenant une erreur de modélisation faible, et l’Élagage des Raisonnements, qui élimine les chemins de probabilité trop basse pour éviter la dégradation des performances. Cette approche réduit ainsi le coût computationnel sans sacrifier la fiabilité.

Les résultats théoriques sont validés empiriquement sur sept jeux de données de référence, où RPC atteint des performances comparables à la cohérence interne en matière de précision, tout en améliorant la fiabilité des estimations de confiance et en divisant par deux le nombre d’échantillons nécessaires. L’étude, acceptée à NeurIPS 2025, ouvre des perspectives pour optimiser l’efficacité des LLMs en raisonnement, en équilibrant rigueur théorique et gains pratiques. Le code et les ressources associés sont accessibles en ligne.