Les grands modèles de langage ont réalisé des performances impressionnantes dans diverses tâches de traitement du langage naturel, mais leur potentiel à générer du contenu nuisible soulève des préoccupations majeures en matière de sécurité. Les détecteurs de toxicité actuels s'appuient principalement sur des benchmarks à label unique, ce qui ne permet pas de capturer adéquatement la nature ambiguë et multidimensionnelle des prompts toxiques dans le monde réel. Cette limitation entraîne des évaluations biaisées, incluant des détections manquées et des faux positifs, ce qui compromet la fiabilité des détecteurs existants. De plus, la collecte d'annotations multi-labels complètes à travers des catégories de toxicité fines est extrêmement coûteuse, ce qui entrave davantage une évaluation efficace et le développement de ces modèles. Pour remédier à ces problèmes, les auteurs introduisent trois nouveaux benchmarks multi-labels pour la détection de toxicité : Q-A-MLL, R-A-MLL et H-X-MLL, dérivés de jeux de données publics sur la toxicité et annotés selon une taxonomie détaillée de 15 catégories. Ils fournissent également une preuve théorique que, sur leurs jeux de données publiés, l'entraînement avec des pseudo-labels donne de meilleures performances que l'apprentissage direct à partir d'une supervision à label unique. En outre, ils développent une méthode de détection de toxicité basée sur des pseudo-labels. Les résultats expérimentaux montrent que leur approche surpasse significativement des modèles avancés, y compris GPT-4o et DeepSeek, permettant ainsi une évaluation plus précise et fiable de la toxicité multi-labels dans le contenu généré par les grands modèles de langage. Cette étude propose une nouvelle approche pour évaluer la toxicité des grands modèles de langage en utilisant des benchmarks multi-labels, améliorant ainsi la précision et la fiabilité des détecteurs de toxicité par rapport aux méthodes traditionnelles à label unique. Les auteurs soulignent également l'importance de cette approche pour une évaluation plus nuancée et complète de la toxicité, ce qui est crucial pour le développement de modèles de langage plus sûrs et plus fiables.