Inférence performante de LLM quantifiés sur les CPU Intel avec PyTorch natif

17 septembre 2025

PyTorch 2.8 a été récemment publié avec une série de nouvelles fonctionnalités, dont une prise en charge stable limitée de l'ABI libtorch pour les extensions C++/CUDA tierces, ainsi qu'une inférence quantifiée haute performance pour les grands modèles de langage (LLM) sur les CPU Intel. Cette version permet à PyTorch d'offrir des performances compétitives en basse précision sur les plateformes Intel Xeon, comparables à d'autres frameworks populaires pour les LLM. Les configurations de quantification courantes pour les LLM sur les processeurs Intel Xeon, telles que A16W8, DA8W8 et A16W4, ont été optimisées pour tirer parti des capacités Intel AMX et AVX-512, accélérant ainsi le traitement des modèles quantifiés. Les performances du stack natif PyTorch peuvent atteindre, voire dépasser, celles du framework vLLM en mode hors ligne sur un seul nœud de calcul Intel Xeon, comme le montrent les benchmarks réalisés avec le modèle Llama-3.1-8B pour différentes configurations de basse précision, y compris DA8W8, A16W4 et DA8W4. Pour bénéficier de ces optimisations, les utilisateurs doivent simplement choisir une machine équipée d'un CPU X86 avec support AMX, quantifier un modèle avec la méthode de quantification de Torchao, configurer quelques flags pour torch.compile et compiler le modèle avec torch.compile. Les optimisations sont alors appliquées automatiquement en arrière-plan, offrant une expérience utilisateur simplifiée et des performances accrues.

Points clés

PyTorch 2.8 offre des performances compétitives pour les LLM quantifiés sur les CPU Intel Xeon.
Les configurations de quantification optimisées incluent A16W8, DA8W8 et A16W4.
Les performances sont comparables ou supérieures à celles du framework vLLM en mode hors ligne.
Les utilisateurs peuvent facilement appliquer ces optimisations avec quelques étapes simples.
Les optimisations sont appliquées automatiquement sous le capot.

Pourquoi c'est important

Cette avancée permet aux développeurs d'exploiter pleinement les capacités des CPU Intel pour l'inférence de modèles de langage quantifiés, réduisant ainsi les coûts et la complexité tout en améliorant les performances. Cela ouvre la voie à des applications plus accessibles et efficaces en matière d'IA sur du matériel standard.

Article original : https://pytorch.org/blog/high-performance-quantized-llm-inference-on-intel-cpus-with-native-pytorch/

Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.