Cette recherche présente une évaluation comparative de dix modèles de langage de pointe appliqués à la catégorisation de textes non structurés selon la taxonomie hiérarchique IAB 2.2. L'analyse a utilisé un jeu de données uniforme de 8 660 échantillons annotés manuellement et des prompts identiques en mode zero-shot pour garantir la cohérence méthodologique. Les métriques d'évaluation incluaient quatre mesures classiques (précision, rappel, exactitude et score F1) et trois indicateurs spécifiques aux LLM : taux d'hallucination, taux d'inflation et coût de catégorisation.
Les résultats montrent que les modèles contemporains n'atteignent que des performances modérées avec des scores moyens de 34% d'exactitude, 42% de précision, 45% de rappel et 41% de score F1. Les taux d'hallucination et d'inflation révèlent que les modèles produisent fréquemment plus de catégories que les annotateurs humains. Parmi les systèmes évalués, Gemini 1.5/2.0 Flash et GPT 20B/120B offrent le meilleur rapport coût-performance, tandis que GPT 120B présente le taux d'hallucination le plus faible. Ces constats suggèrent que l'augmentation d'échelle et les améliorations architecturales seules ne garantissent pas une meilleure précision de catégorisation.
Pour surmonter ces limitations, une approche par ensemble a été développée et testée séparément. Cette méthode, où plusieurs LLM agissent comme des experts indépendants, améliore substantiellement l'exactitude, réduit l'inflation et élimine complètement les hallucinations. Ces résultats indiquent que l'orchestration coordonnée de modèles - plutôt que la simple augmentation d'échelle - pourrait représenter la voie la plus efficace pour atteindre ou dépasser les performances d'experts humains dans la catégorisation de textes à grande échelle.