PyTorch 2.8 a été récemment publié avec une série de nouvelles fonctionnalités, dont une prise en charge stable limitée de l'ABI libtorch pour les extensions C++/CUDA tierces, ainsi qu'une inférence quantifiée haute performance pour les grands modèles de langage (LLM) sur les CPU Intel. Cette version permet à PyTorch d'offrir des performances compétitives en basse précision sur les plateformes Intel Xeon, comparables à d'autres frameworks populaires pour les LLM. Les configurations de quantification courantes pour les LLM sur les processeurs Intel Xeon, telles que A16W8, DA8W8 et A16W4, ont été optimisées pour tirer parti des capacités Intel AMX et AVX-512, accélérant ainsi le traitement des modèles quantifiés. Les performances du stack natif PyTorch peuvent atteindre, voire dépasser, celles du framework vLLM en mode hors ligne sur un seul nœud de calcul Intel Xeon, comme le montrent les benchmarks réalisés avec le modèle Llama-3.1-8B pour différentes configurations de basse précision, y compris DA8W8, A16W4 et DA8W4. Pour bénéficier de ces optimisations, les utilisateurs doivent simplement choisir une machine équipée d'un CPU X86 avec support AMX, quantifier un modèle avec la méthode de quantification de Torchao, configurer quelques flags pour torch.compile et compiler le modèle avec torch.compile. Les optimisations sont alors appliquées automatiquement en arrière-plan, offrant une expérience utilisateur simplifiée et des performances accrues.