De l'ordre dans le chaos : étude comparative de dix LLMs sur la catégorisation de données non structurées

17 octobre 2025

Cette recherche présente une évaluation comparative de dix modèles de langage de pointe appliqués à la catégorisation de textes non structurés selon la taxonomie hiérarchique IAB 2.2. L'analyse a utilisé un jeu de données uniforme de 8 660 échantillons annotés manuellement et des prompts identiques en mode zero-shot pour garantir la cohérence méthodologique. Les métriques d'évaluation incluaient quatre mesures classiques (précision, rappel, exactitude et score F1) et trois indicateurs spécifiques aux LLM : taux d'hallucination, taux d'inflation et coût de catégorisation.

Les résultats montrent que les modèles contemporains n'atteignent que des performances modérées avec des scores moyens de 34% d'exactitude, 42% de précision, 45% de rappel et 41% de score F1. Les taux d'hallucination et d'inflation révèlent que les modèles produisent fréquemment plus de catégories que les annotateurs humains. Parmi les systèmes évalués, Gemini 1.5/2.0 Flash et GPT 20B/120B offrent le meilleur rapport coût-performance, tandis que GPT 120B présente le taux d'hallucination le plus faible. Ces constats suggèrent que l'augmentation d'échelle et les améliorations architecturales seules ne garantissent pas une meilleure précision de catégorisation.

Pour surmonter ces limitations, une approche par ensemble a été développée et testée séparément. Cette méthode, où plusieurs LLM agissent comme des experts indépendants, améliore substantiellement l'exactitude, réduit l'inflation et élimine complètement les hallucinations. Ces résultats indiquent que l'orchestration coordonnée de modèles - plutôt que la simple augmentation d'échelle - pourrait représenter la voie la plus efficace pour atteindre ou dépasser les performances d'experts humains dans la catégorisation de textes à grande échelle.

Points clés

Évaluation comparative de dix modèles de langage sur la catégorisation de textes
Performance modérée avec seulement 34% d'exactitude moyenne
Gemini et GPT offrent le meilleur rapport coût-performance
Les modèles produisent plus de catégories que les annotateurs humains
L'augmentation d'échelle seule ne garantit pas l'amélioration

Pourquoi c'est important

Cette étude est cruciale car elle révèle les limites actuelles des LLM dans des tâches pratiques de catégorisation, avec des implications directes pour les applications industrielles traitant de grandes quantités de données non structurées. Les résultats suggèrent que l'optimisation des architectures et l'orchestration de modèles pourraient être plus efficaces que la simple augmentation d'échelle, offrant des pistes concrètes pour améliorer les systèmes de traitement automatique du langage.

Article original : https://arxiv.org/abs/2510.13885

Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.