Les grands modèles de raisonnement utilisent des traces de raisonnement transparentes, appelées chaînes de pensée, pour décomposer les problèmes complexes en étapes intermédiaires et dériver des réponses finales. Cependant, ces traces introduisent des défis de sécurité uniques, car du contenu nuisible peut être intégré dans les étapes intermédiaires même lorsque les réponses finales semblent bénignes. Les outils de modération existants, conçus pour traiter les réponses générées, peinent à détecter efficacement ces risques cachés dans les chaînes de pensée.
Pour relever ces défis, ReasoningShield propose un cadre léger mais robuste pour modérer les chaînes de pensée dans les grands modèles de raisonnement. Ses contributions clés incluent la formalisation de la tâche de modération des chaînes de pensée avec une taxonomie multi-niveaux de 10 catégories de risques réparties sur 3 niveaux de sécurité, la création du premier benchmark de modération des chaînes de pensée contenant 9 200 paires de requêtes et de traces de raisonnement, et le développement d'une stratégie d'entraînement en deux étapes combinant l'analyse de risques étape par étape et l'apprentissage contrastif pour améliorer la robustesse.
Les expérimentations montrent que ReasoningShield atteint des performances de pointe, surpassant les outils spécifiques comme LlamaGuard-4 de 35,6% et les modèles commerciaux généraux comme GPT-4o de 15,8% sur les benchmarks, tout en généralisant efficacement à travers divers paradigmes de raisonnement, tâches et scénarios non vus. Toutes les ressources sont publiées pour favoriser la recherche et le développement futurs dans ce domaine émergent de la sécurité des modèles de raisonnement.