Sans évaluation, un RAG ne progresse pas. Ce guide propose un protocole mesurable et reproductible, avec des métriques claires et des outils pour automatiser les campagnes.

Dataset — Constituez 100–300 questions couvrant ambiguïtés, questions longues, noms rares, mises à jour récentes et pièges. Annotez les réponses attendues et les documents pertinents.

Récupération — Mesurez Recall@K, nDCG et MRR. Comparez tailles de chunks, index, filtres et rerankers. Visualisez la contribution de chaque étape.

Réponses — Mesurez la pertinence sémantique (F1 sémantique) et la « faithfulness » (alignement aux sources). Comptabilisez les refus justifiés (no‑answer) et les hallucinations.

Coûts & latence — Suivez tokens, temps p50/p95, variance. Intégrez ces mesures dans vos tableaux de bord.

Outils — Harness de test maison (scripts), dashboards, et export pour revues humaines. Versionnez les jeux et les résultats.

Itération — Programmez des campagnes hebdomadaires, bloquez les régressions avant mise en prod, et documentez vos décisions. original: true category: Guide tags: