L'évaluation de la factualité des textes longs générés par les grands modèles de langage (LLM) représente un défi majeur en raison des problèmes de précision et du coût élevé des évaluations humaines. Les approches existantes reposent généralement sur une décomposition du texte en revendications individuelles, suivie d'une recherche de preuves et d'une vérification, mais elles souffrent de deux limitations critiques : une inefficacité due à des composants de pipeline complexes mal adaptés aux sorties longues des LLM, et une inefficacité résultant de jeux de revendications imprécis et d'une collecte de preuves insuffisante basée sur de courts extraits.

Pour surmonter ces obstacles, FaStFACT propose un cadre d'évaluation rapide et robuste qui atteint le plus haut niveau d'alignement avec l'évaluation humaine tout en maintenant une efficacité supérieure aux méthodes de référence. Le système utilise d'abord une extraction de revendications au niveau des segments de texte, intégrée avec une pré-vérification basée sur la confiance, ce qui réduit considérablement le coût des recherches web et des appels d'inférence tout en garantissant la fiabilité. Pour la recherche et la vérification, il collecte des preuves au niveau documentaire à partir de pages web crawléees et les récupère sélectivement pendant la phase de vérification, résolvant ainsi le problème d'insuffisance des preuves rencontré dans les pipelines précédents.

Des expériences approfondies basées sur un benchmark agrégé et annoté manuellement démontrent la fiabilité de FaStFACT pour évaluer à la fois efficacement et efficientement la factualité des générations longues des LLM. Le code et les données du benchmark sont disponibles publiquement, et l'article a été accepté pour publication dans les proceedings d'EMNLP 2025 (Findings), confirmant son importance dans le domaine du traitement du langage naturel et de l'intelligence artificielle.