L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a permis d'améliorer les capacités de raisonnement des grands modèles de langage, mais les méthodes actuelles présentent un biais systématique favorisant l'exploitation au détriment de l'exploration. Ce biais se manifeste par une amélioration des performances pass@1 mais une détérioration des résultats pass@K pour K>1, limitant ainsi la diversité et la robustesse des réponses générées.

L'analyse des dynamiques d'entraînement révèle un effet de concentration des probabilités où le premier candidat accumule progressivement la masse probabiliste au détriment des autres options. Cette sur-concentration, plus prononcée avec l'entraînement, corrèle directement avec la baisse des performances pass@K. Les chercheurs ont donc développé SimKO (Simple Pass@K Optimization), une méthode conçue spécifiquement pour atténuer ce problème en encourageant l'exploration.

SimKO fonctionne de manière asymétrique : pour les réponses correctes vérifiées, elle renforce les probabilités des K premiers candidats, tandis que pour les réponses incorrectes, elle applique des pénalités plus fortes au premier candidat. Cette approche s'avère particulièrement efficace sur les tokens à forte entropie, où la diversité des choix est cruciale. Les tests sur divers benchmarks de raisonnement mathématique et logique démontrent que SimKO amène systématiquement de meilleures performances pass@K pour une large gamme de valeurs de K, offrant ainsi une solution simple pour améliorer l'exploration dans les méthodes RLVR.