Le scaling traditionnel des files d'attente, basé sur le retard accumulé, présente un défaut majeur : il est réactif. Pendant que le backlog augmente, que le HPA réagit et que les nouveaux pods deviennent opérationnels, les objectifs de niveau de service sont déjà compromis. La solution proposée est un autoscaling prédictif qui anticipe les besoins en ressources. Il utilise la formule Erlang-C, empruntée à la gestion des centres d'appels, pour calculer le nombre de serveurs requis. Ce calcul se base sur l'intensité d'arrivée des messages, la capacité de traitement moyenne d'un worker et un objectif de temps d'attente maximal dans la queue. Le résultat détermine le nombre de répliques nécessaires pour maintenir la probabilité d'attente au-dessus d'un seuil donné en dessous d'une valeur cible. Cette valeur est ensuite communiquée à KEDA via un External Scaler utilisant gRPC. Cette approche permet un scaling proactif, directement lié au respect des SLO, plutôt qu'une réaction tardive à des métriques historiques.