Le « long contexte » est à la mode, mais sa valeur dépend du cas d’usage. Pour du Q/A ciblé, un RAG bien réglé bat souvent l’absorption brute de 100k+ tokens. Pour le code et les contrats, un contexte long change la donne, à condition d’éviter les illusions de « rappel ».
RoPE étendu — Les techniques d’interpolation/extrapolation (NTK‑aware, YaRN) étirent RoPE sans ré‑entraîner massivement. Simples à déployer, elles dégradent parfois la précision à très longue distance. Bien fonctionner sur 32k ne garantit pas 256k hors distribution.
ALiBi et variantes — L’introduction d’un biais linéaire stabilise l’attention à longue distance, au prix de compromis de précision locale. Bon choix pour des tâches de lecture sans structure stricte.
Séquentiels (Mamba‑like) — Les approches à états séquentiels promettent de meilleures latences et une mémoire bornée. En 2025, l’écosystème progresse mais l’outillage (kernels, tooling) reste moins mature que l’attention classique.
Attention « efficiente » — Fenêtres glissantes, dilatations, Flash‑Attention 2/3, sparsitiy structurée: elles permettent d’allonger le contexte sans exploser le coût. Le réglage des fenêtres par tâche (narratif vs code) est critique.
Évaluation réaliste — Testez des « ancres » réparties (début/milieu/fin), des chaînes de références et des perturbations (sections trompeuses). Mesurez précision de rappel et robustesse. Méfiez‑vous des benches qui ne stressent pas la question du long‑terme.
RAG vs long contexte — Le RAG offre traçabilité et fraîcheur; le long contexte apporte continuité. En pratique, un hybride marche bien: RAG pour ramener les bons passages + long contexte pour la cohérence de fil.
Conseils —
Choisir l’architecture selon la latence ciblée et la nature des documents.
Régler fenêtres/positions via un harness maison.
Combiner avec RAG; éviter d’absorber « tout ».
Surveiller les régressions à mesure que le contexte s’allonge. original: true category: Analyse tags:
Contexte long
Architectures
RoPE permalink: /guides/long-context-architectures-2025/