Le « long contexte » est à la mode, mais sa valeur dépend du cas d’usage. Pour du Q/A ciblé, un RAG bien réglé bat souvent l’absorption brute de 100k+ tokens. Pour le code et les contrats, un contexte long change la donne, à condition d’éviter les illusions de « rappel ».

RoPE étendu — Les techniques d’interpolation/extrapolation (NTK‑aware, YaRN) étirent RoPE sans ré‑entraîner massivement. Simples à déployer, elles dégradent parfois la précision à très longue distance. Bien fonctionner sur 32k ne garantit pas 256k hors distribution.

ALiBi et variantes — L’introduction d’un biais linéaire stabilise l’attention à longue distance, au prix de compromis de précision locale. Bon choix pour des tâches de lecture sans structure stricte.

Séquentiels (Mamba‑like) — Les approches à états séquentiels promettent de meilleures latences et une mémoire bornée. En 2025, l’écosystème progresse mais l’outillage (kernels, tooling) reste moins mature que l’attention classique.

Attention « efficiente » — Fenêtres glissantes, dilatations, Flash‑Attention 2/3, sparsitiy structurée: elles permettent d’allonger le contexte sans exploser le coût. Le réglage des fenêtres par tâche (narratif vs code) est critique.

Évaluation réaliste — Testez des « ancres » réparties (début/milieu/fin), des chaînes de références et des perturbations (sections trompeuses). Mesurez précision de rappel et robustesse. Méfiez‑vous des benches qui ne stressent pas la question du long‑terme.

RAG vs long contexte — Le RAG offre traçabilité et fraîcheur; le long contexte apporte continuité. En pratique, un hybride marche bien: RAG pour ramener les bons passages + long contexte pour la cohérence de fil.

Conseils —