FairBatching : Formation de lots équitable pour l'inférence des LLM

17 octobre 2025

Les systèmes d'inférence des grands modèles de langage (LLM) sont confrontés à une tension fondamentale entre la minimisation de la latence du premier jeton (TTFT) pour les nouvelles requêtes et le maintien d'un débit de génération élevé (TPOT faible) pour les requêtes en cours. Les ordonnanceurs par lots sans blocage existants, comme Sarathi, bien qu'efficaces pour prévenir les interruptions de décodage, introduisent une iniquité computationnelle significative en priorisant excessivement les tâches de décodage, ce qui entraîne une sous-utilisation des ressources et des délais de file d'attente inutiles pour le préremplissage, dégradant ainsi la qualité de service globale.

Cette étude identifie la cause profonde de cette iniquité : la nature non monotone du temps entre les jetons (TBT) comme métrique d'ordonnancement et la politique rigide de priorisation du décodage qui ne s'adapte pas aux pics de charge dynamiques. FairBatching propose donc un mécanisme de détermination de capacité de lot adaptatif qui ajuste dynamiquement le budget computationnel pour améliorer l'utilisation du GPU sans violer les objectifs de niveau de service (SLO). Son algorithme de formation de lots équitable et dynamique s'éloigne du paradigme de priorisation du décodage, permettant de récupérer des ressources computationnelles des tâches de décodage en pic pour servir les augmentations de préremplissage, atteignant ainsi une équité globale.

Évalué sur des traces réalistes, FairBatching réduit significativement la latence extrême du TTFT jusqu'à 2,29 fois tout en maintenant robustement les SLO du TPOT, obtenant une amélioration de 20,0 % de la capacité par nœud et de 54,3 % au niveau du cluster. De plus, il fournit une méthode novatrice d'estimation de charge permettant une coordination plus efficace avec les ordonnanceurs de niveau supérieur, renforçant ainsi son applicabilité dans des environnements de production complexes.

Points clés

Équilibre latence premier jeton et débit de génération
Corrige l'iniquité computationnelle des ordonnanceurs existants
S'adapte aux pics de charge dynamiques
Améliore l'utilisation GPU sans violer les SLO
Algorithme de formation de lots équitable

Pourquoi c'est important

Cette recherche est cruciale car elle aborde un problème fondamental d'équité dans l'inférence des LLM, impactant directement la qualité de service perçue par les utilisateurs. Les améliorations de performance et de capacité démontrées permettent une utilisation plus efficace des ressources matérielles coûteuses, avec des implications importantes pour les services cloud et les applications temps réel.

Article original : https://arxiv.org/abs/2510.14392

Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.