Évaluer un RAG (2025): métriques, jeux de tests et outils

Sans évaluation, un RAG ne progresse pas. Ce guide propose un protocole mesurable et reproductible, avec des métriques claires et des outils pour automatiser les campagnes.

Dataset — Constituez 100–300 questions couvrant ambiguïtés, questions longues, noms rares, mises à jour récentes et pièges. Annotez les réponses attendues et les documents pertinents.

Récupération — Mesurez Recall@K, nDCG et MRR. Comparez tailles de chunks, index, filtres et rerankers. Visualisez la contribution de chaque étape.

Réponses — Mesurez la pertinence sémantique (F1 sémantique) et la « faithfulness » (alignement aux sources). Comptabilisez les refus justifiés (no‑answer) et les hallucinations.

Coûts & latence — Suivez tokens, temps p50/p95, variance. Intégrez ces mesures dans vos tableaux de bord.

Outils — Harness de test maison (scripts), dashboards, et export pour revues humaines. Versionnez les jeux et les résultats.

Itération — Programmez des campagnes hebdomadaires, bloquez les régressions avant mise en prod, et documentez vos décisions. original: true category: Guide tags:

RAG
Évaluation
Métriques permalink: /guides/evaluation-rag-mesures-2025/