Activation de vLLM V1 sur les GPU AMD avec Triton

21 octobre 2025

recherchesystèmes

En janvier 2025, l'équipe de vLLM a annoncé la version alpha de vLLM V1, une refonte majeure de l'architecture interne de vLLM. Les objectifs de cette version étaient de simplifier la base de code, de rendre vLLM plus extensible et d'activer toutes les optimisations de performance par défaut. Cependant, initialement, vLLM V1 ne fonctionnait que sur les GPU NVIDIA, car le seul backend d'attention compatible était la version CUDA de FlashAttention. Pour remédier à cela, les équipes d'AMD, IBM Research et Red Hat ont développé un nouveau backend d'attention pour vLLM V1 basé sur Triton, permettant ainsi la prise en charge des GPU AMD de manière portable et conviviale pour les développeurs. Ce travail a nécessité des optimisations significatives des noyaux Triton pour améliorer les performances sur les GPU AMD. Les optimisations ont été organisées en trois phases : des améliorations du noyau prefix_prefill, une approche divisée utilisant un noyau spécialisé pour les séquences de décodage, et enfin, un nouveau noyau Triton unifié pour les préfills et les décodes. Ces efforts ont permis d'améliorer considérablement les performances de vLLM V1 sur les GPU AMD, rendant cette version plus accessible et performante sur une plus large gamme de matériel.

Article original : https://pytorch.org/blog/enabling-vllm-v1-on-amd-gpus-with-triton/

Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.