Résumer, ce n’est pas « couper au hasard ». Un bon résumé garde l’essentiel, reste fidèle aux faits, et se lit facilement. Ce guide explique comment évaluer vos résumés de manière simple et reproductible, avec des métriques automatiques pour gagner du temps et une petite part d’évaluation humaine pour garder le bon sens.
Ce que vous voulez vraiment mesurer —
Factualité: aucune contre‑vérité, aucune invention. Le résumé doit être supporté par la source.
Couverture: les points clés sont bien présents; pas de trous majeurs.
Concision et lisibilité: court sans être télégraphique; enchaînements clairs.
Style: ton adapté au public visé (neutre/pédagogique/éditorial selon le cas).
1) Préparer un petit jeu de référence — Prenez 20–50 articles représentatifs. Pour chacun, gardez le texte source et (si possible) un « bon résumé » écrit par un humain. Si vous n’avez pas de références humaines, ce n’est pas bloquant: vous pouvez tout de même mesurer factualité et couverture par rapport à la source.
2) Métriques automatiques utiles — L’objectif n’est pas de trouver « la » métrique parfaite, mais un ensemble léger qui capte les défauts fréquents.
Similarité sémantique: mesurer à quel point le résumé ressemble, au sens sémantique, aux passages importants de la source (embeddings). Trop faible → hors sujet; trop haut mais avec peu de mots → copiage.
Entailment (prédicat de support): est‑ce que la source « supporte » les phrases du résumé ? On punit les contradictions ou les inférences trop lointaines.
Couverture d’unités d’information: extraire les « points clés » de la source (titres, entités, événements) et vérifier que le résumé couvre un pourcentage suffisant de ces éléments.
Hygiène de format: longueur, ponctuation, phrases trop longues; si vous attendez du Markdown ou des listes, vérifiez la forme.
Ces signaux, combinés, donnent un score global « pas parfait mais utile ». Ne sur‑interprétez pas un chiffre; regardez les exemples.
3) Une part d’évaluation humaine bien ciblée — Vous n’avez pas besoin d’une armée d’annotateurs, juste de cohérence.
Grille courte: factualité, couverture, clarté, style (1–5) + 2 lignes de commentaire.
Double lecture: deux personnes sur 20% des cas; arbitrez si écart > 1 point. On gagne en stabilité inter‑juge.
Ciblage: passez plus de temps là où les métriques automatiques sont incertaines ou en désaccord.
4) Tester la robustesse — Les résumés doivent tenir quand les conditions changent un peu.
Variantes de prompts: ton neutre vs enthousiaste; résumé en 5 points vs 1 paragraphe.
Longueur: court (80–120 mots) vs moyen (200–300 mots).
Sources avec bruit: titres en double, ordre de paragraphes inversé; le résumé doit rester globalement correct.
5) Pipeline d’évaluation simple —
Sélectionnez votre échantillon (aléatoire + quelques cas « difficiles »).
Calculez les métriques automatiques en lot (similarité, entailment, couverture, format).
Faites une revue humaine sur 20–30% des cas, ciblée par les signaux faibles.
Compilez un rapport: moyennes, dispersion, exemples typiques, plan d’action (prompts, segmentation des sources, longueur cible).
6) Comment lire les résultats —
Un score de similarité élevé sans bonne couverture peut signaler un « paraphraseur » paresseux qui oublie des points clés.
Un entailment moyen mais une bonne couverture peut indiquer des formulations trop elliptiques: ajouter des connecteurs/logique dans le prompt.
Des erreurs de format récurrentes (listes, JSON) sont souvent un signe de prompt flou: préciser explicitement le format attendu.
7) Boucles d’amélioration —
Prompts: rappeler la fidélité d’abord, citer des passages ou numéros de section; demander un style simple.
Segmentation des sources: scinder les textes trop longs en sections cohérentes et résumer par section avant de fusionner.
Filtre de sortie: si entailment < seuil, demander une reformulation avec preuves ou réduire la longueur.
Exemple concret 1: blog tech — Vous résumez des articles techniques pour un public développeur.
Source: billets de 1 500–2 500 mots.
Attendu: 150–220 mots, 3–5 points clés, 1 lien vers la doc.
Mesures: entailment > 0,8, couverture > 70% des concepts ciblés (API, version, breaking change), longueur 150–220 mots.
Ajustements: si la couverture baisse, forcer « au moins 1 point par section majeure ».
Exemple concret 2: support client — Résumer un ticket et la solution associée.
Source: conversation longue + résolution.
Attendu: 80–120 mots, liste des étapes suivies, code d’erreur.
Mesures: entailment strict, aucune invention, extraction correcte des identifiants; refus si PII non masquée.
Ajustements: gabarit de résumé fixe (contexte → diagnostic → solution → prochain pas) pour garantir la lisibilité.
8) Pièges fréquents —
Confondre concision et tronquage: couper des détails critiques fait perdre la compréhension.
Se reposer sur une seule métrique: un ROUGE/embedding flatteur peut masquer des contre‑vérités.
Évaluer sur des sources « faciles » seulement: vos résumés s’effondreront au premier texte désordonné.
Oublier l’utilisateur: un résumé parfait pour un expert peut être obscur pour un débutant (et inversement). Définir le public cible.
9) Checklists prêtes à l’emploi —
Qualité: factualité confirmée, points clés couverts, style lisible, longueur respectée.
Automatique: similarité ok, entailment au‑dessus du seuil, couverture des unités d’information suffisante, format validé.
Humaine: note ≥ 4/5 sur factualité et clarté; commentaires collectés sur 20% des cas.
Robustesse: 1–2 variantes de prompts testées; performance stable.
Actions: prompts mis à jour, segmentation améliorée, seuils ajustés; documenter les régressions.
En combinant ces outils simples, vous obtenez des résumés qui tiennent leurs promesses: fidèles, utiles et agréables à lire. Le point important n’est pas le chiffre absolu d’une métrique, mais la boucle régulière « mesurer → corriger → re‑mesurer » sur des exemples parlants. C’est cette discipline qui fera la différence en production. original: true category: Guide tags:
Résumé
Évaluation
LLM permalink: /guides/summarization-evaluation-2025/