Les systèmes d'inférence des grands modèles de langage (LLM) sont confrontés à une tension fondamentale entre la minimisation de la latence du premier jeton (TTFT) pour les nouvelles requêtes et le maintien d'un débit de génération élevé (TPOT faible) pour les requêtes en cours. Les ordonnanceurs par lots sans blocage existants, comme Sarathi, bien qu'efficaces pour prévenir les interruptions de décodage, introduisent une iniquité computationnelle significative en priorisant excessivement les tâches de décodage, ce qui entraîne une sous-utilisation des ressources et des délais de file d'attente inutiles pour le préremplissage, dégradant ainsi la qualité de service globale.

Cette étude identifie la cause profonde de cette iniquité : la nature non monotone du temps entre les jetons (TBT) comme métrique d'ordonnancement et la politique rigide de priorisation du décodage qui ne s'adapte pas aux pics de charge dynamiques. FairBatching propose donc un mécanisme de détermination de capacité de lot adaptatif qui ajuste dynamiquement le budget computationnel pour améliorer l'utilisation du GPU sans violer les objectifs de niveau de service (SLO). Son algorithme de formation de lots équitable et dynamique s'éloigne du paradigme de priorisation du décodage, permettant de récupérer des ressources computationnelles des tâches de décodage en pic pour servir les augmentations de préremplissage, atteignant ainsi une équité globale.

Évalué sur des traces réalistes, FairBatching réduit significativement la latence extrême du TTFT jusqu'à 2,29 fois tout en maintenant robustement les SLO du TPOT, obtenant une amélioration de 20,0 % de la capacité par nœud et de 54,3 % au niveau du cluster. De plus, il fournit une méthode novatrice d'estimation de charge permettant une coordination plus efficace avec les ordonnanceurs de niveau supérieur, renforçant ainsi son applicabilité dans des environnements de production complexes.