Cette recherche présente LANPO (Language-And-Numerical Policy Optimization), un cadre novateur conçu pour optimiser l'apprentissage par renforcement dans les grands modèles de langage (LLMs). Les auteurs soulignent les limites des méthodes traditionnelles basées sur des récompenses scalaires, qui négligent les informations textuelles précieuses contenues dans les rollouts, limitant ainsi l'efficacité de l'exploration. LANPO résout ce problème en séparant clairement les rôles du feedback : le langage guide l'exploration tandis que les récompenses numériques pilotent l'optimisation. Le cadre introduit également deux principes clés : la Réflexion Agnostique aux Récompenses pour une autocorrection intra-échantillon sûre, et l'Abstraction Pertinente pour distiller des leçons généralisables à partir d'expériences inter-échantillons. Les résultats expérimentaux montrent que LANPO permet à des modèles de 7B et 14B de surpasser significativement les bases de référence fortes entraînées avec GRPO en termes de précision de test sur des benchmarks de raisonnement mathématique. Cette approche offre une méthode robuste pour intégrer les expériences historiques dans la boucle d'apprentissage par renforcement des LLMs, créant ainsi des agents d'apprentissage plus efficaces et économes en données. Les implications de cette recherche sont importantes pour le développement de systèmes d'IA plus performants et autonomes, capables d'apprendre de manière plus efficace à partir de leurs expériences passées. Les auteurs démontrent que leur méthode surpasse les approches existantes, ouvrant la voie à de nouvelles avancées dans le domaine de l'apprentissage automatique et du traitement du langage naturel.
LANPO : amorçage de feedback linguistique et numérique pour l'apprentissage par renforcement dans les LLMs
Article original : https://arxiv.org/abs/2510.16552
Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.