PyTorch 2.8 marque une avancée significative avec l'intégration native de XCCL pour les GPU Intel, offrant une solution clé en main pour l'entraînement distribué sur le matériel Intel. Cette mise à jour comble une lacune précédente où PyTorch manquait de méthode intégrée pour l'entraînement distribué sur les GPU Intel, limitant ainsi l'utilisation des fonctionnalités avancées. Le processus d'intégration de XCCL a été guidé par une démarche communautaire transparente, assurant une compatibilité avec les principes fondamentaux de PyTorch en matière d'utilisabilité et de fiabilité. L'objectif principal de cette fonctionnalité était de fournir une API distribuée pour les utilisateurs de dispositifs XPU, simple et cohérente avec les backends existants comme NCCL et Gloo. Des efforts majeurs ont été déployés pour restructurer les tests afin qu'ils soient indépendants du backend, garantissant ainsi un taux de réussite élevé des tests unitaires pour XCCL. L'utilisation du nouveau backend est simple et directe, avec une initialisation explicite du groupe de processus avec XCCL, ou une sélection automatique par PyTorch 2.8 sur les dispositifs Intel XPU. L'impact de cette intégration a été immédiat et significatif, comme le démontre l'intégration fluide de TorchTitan, une plateforme pour l'entraînement à grande échelle de modèles d'IA générative, qui fonctionne désormais sans modification majeure sur les GPU Intel. L'Argonne National Laboratory a également tiré parti de cette avancée pour utiliser le supercalculateur Aurora, classé deuxième au benchmark HPL-MxP pour la performance en IA, afin de résoudre des problèmes scientifiques complexes allant de la modélisation climatique à la découverte de médicaments. Une étude de cas notable est celle du modèle CosmicTagger, un modèle de segmentation basé sur U-Net utilisé pour analyser les données de neutrinos, qui a atteint une efficacité de mise à l'échelle de 99 % pour l'entraînement distribué en parallèle de données (DDP) sur plusieurs dispositifs au sein d'un seul nœud, et une efficacité de 92 % pour l'entraînement distribué sur plusieurs nœuds jusqu'à 2 048 nœuds Aurora (24 576 rangs).