Optimisation Simple de Stratégie par Pass@K : SimKO

17 octobre 2025

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a permis d'améliorer les capacités de raisonnement des grands modèles de langage, mais les méthodes actuelles présentent un biais systématique favorisant l'exploitation au détriment de l'exploration. Ce biais se manifeste par une amélioration des performances pass@1 mais une détérioration des résultats pass@K pour K>1, limitant ainsi la diversité et la robustesse des réponses générées.

L'analyse des dynamiques d'entraînement révèle un effet de concentration des probabilités où le premier candidat accumule progressivement la masse probabiliste au détriment des autres options. Cette sur-concentration, plus prononcée avec l'entraînement, corrèle directement avec la baisse des performances pass@K. Les chercheurs ont donc développé SimKO (Simple Pass@K Optimization), une méthode conçue spécifiquement pour atténuer ce problème en encourageant l'exploration.

SimKO fonctionne de manière asymétrique : pour les réponses correctes vérifiées, elle renforce les probabilités des K premiers candidats, tandis que pour les réponses incorrectes, elle applique des pénalités plus fortes au premier candidat. Cette approche s'avère particulièrement efficace sur les tokens à forte entropie, où la diversité des choix est cruciale. Les tests sur divers benchmarks de raisonnement mathématique et logique démontrent que SimKO amène systématiquement de meilleures performances pass@K pour une large gamme de valeurs de K, offrant ainsi une solution simple pour améliorer l'exploration dans les méthodes RLVR.

Points clés

Corrige le biais d'exploitation excessive dans RLVR
Améliore les performances pass@K sur benchmarks de raisonnement
Fonctionne de manière asymétrique selon la validité des réponses
Particulièrement efficace sur les tokens à haute entropie

Pourquoi c'est important

Cette recherche est cruciale car elle identifie et résout un problème fondamental dans l'entraînement des LLM par renforcement. En corrigeant le biais d'exploitation excessive, SimKO permet d'obtenir des modèles plus robustes et diversifiés, essentiels pour les applications critiques nécessitant une exploration approfondie des solutions possibles. La méthode offre une approche simple mais efficace pour améliorer les performances sans complexité algorithmique additionnelle significative.

Article original : https://arxiv.org/abs/2510.14807

Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.