PyTorch 2.8 marque une avancée significative avec l'intégration native de XCCL pour les GPU Intel, offrant une solution clé en main pour l'entraînement distribué sur le matériel Intel. Cette mise à jour comble une lacune précédente où PyTorch manquait de méthode intégrée pour l'entraînement distribué sur les GPU Intel, limitant ainsi l'utilisation des fonctionnalités avancées. Le processus d'intégration de XCCL a été guidé par une démarche communautaire transparente, assurant une compatibilité avec les principes fondamentaux de PyTorch en matière d'utilisabilité et de fiabilité. L'objectif principal de cette fonctionnalité était de fournir une API distribuée pour les utilisateurs de dispositifs XPU, simple et cohérente avec les backends existants comme NCCL et Gloo. Des efforts majeurs ont été déployés pour restructurer les tests afin qu'ils soient indépendants du backend, garantissant ainsi un taux de réussite élevé des tests unitaires pour XCCL. L'utilisation du nouveau backend est simple et directe, avec une initialisation explicite du groupe de processus avec XCCL, ou une sélection automatique par PyTorch 2.8 sur les dispositifs Intel XPU. L'impact de cette intégration a été immédiat et significatif, comme le démontre l'intégration fluide de TorchTitan, une plateforme pour l'entraînement à grande échelle de modèles d'IA générative, qui fonctionne désormais sans modification majeure sur les GPU Intel. L'Argonne National Laboratory a également tiré parti de cette avancée pour utiliser le supercalculateur Aurora, classé deuxième au benchmark HPL-MxP pour la performance en IA, afin de résoudre des problèmes scientifiques complexes allant de la modélisation climatique à la découverte de médicaments. Une étude de cas notable est celle du modèle CosmicTagger, un modèle de segmentation basé sur U-Net utilisé pour analyser les données de neutrinos, qui a atteint une efficacité de mise à l'échelle de 99 % pour l'entraînement distribué en parallèle de données (DDP) sur plusieurs dispositifs au sein d'un seul nœud, et une efficacité de 92 % pour l'entraînement distribué sur plusieurs nœuds jusqu'à 2 048 nœuds Aurora (24 576 rangs).
PyTorch 2.8 intègre le support natif XCCL pour les GPU Intel : études de cas de l'Argonne National Laboratory
Points clés
- PyTorch 2.8 intègre le support natif de XCCL pour les GPU Intel, simplifiant l'entraînement distribué.
- L'intégration de XCCL a été guidée par une démarche communautaire transparente pour assurer la fiabilité.
- L'Argonne National Laboratory a démontré une efficacité de mise à l'échelle impressionnante avec cette mise à jour.
- TorchTitan, une plateforme pour l'entraînement à grande échelle de modèles d'IA, fonctionne désormais sans modification majeure sur les GPU Intel.
Pourquoi c'est important
Cette mise à jour est cruciale car elle permet aux développeurs de tirer pleinement parti des GPU Intel pour l'entraînement distribué, simplifiant les workflows et garantissant une parité de fonctionnalités avec d'autres matériels. Cela ouvre également la voie à des avancées futures dans PyTorch pour les utilisateurs de matériel Intel.
Article original : https://pytorch.org/blog/pytorch-2-8-brings-native-xccl-support-to-intel-gpus-case-studies-from-argonne-national-laboratory/
Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.