PyTorch, en collaboration avec les équipes TorchAO, ExecuTorch et Unsloth, a rendu disponibles des modèles quantifiés tels que Phi4-mini-instruct, Qwen3, SmolLM3-3B et gemma-3-270m-it. Ces modèles utilisent des techniques de quantification int4 et float8 pour offrir une inférence efficace sur des GPU A100, H100 et des appareils mobiles, tout en maintenant une qualité de modèle comparable à leurs versions bfloat16. Les modèles pré-quantifiés sont optimisés pour des plateformes serveurs et mobiles, permettant aux utilisateurs de déployer des modèles plus rapides en production. Des recettes de quantification reproductibles et des guides complets sont également disponibles pour aider les utilisateurs à appliquer la quantification native PyTorch à leurs propres modèles et ensembles de données. Les modèles quantifiés montrent des améliorations de vitesse allant jusqu'à 2x sur H100 et des réductions de mémoire allant jusqu'à 60%, avec une dégradation minimale de la précision. Les intégrations solides au sein de l'écosystème PyTorch permettent des solutions de quantification robustes et performantes pour répondre à divers besoins de déploiement. Les modèles quantifiés et les recettes de quantification fonctionnent de manière transparente tout au long du cycle de vie de la préparation et du déploiement des modèles.
Les modèles quantifiés TorchAO et les recettes de quantification sont désormais disponibles sur HuggingFace Hub
Points clés
- Des modèles quantifiés optimisés pour serveurs et appareils mobiles sont désormais disponibles.
- Les recettes de quantification reproductibles permettent aux utilisateurs d'appliquer ces techniques à leurs propres modèles.
- Les modèles quantifiés offrent des gains de performance significatifs avec une dégradation minimale de la qualité.
- Les intégrations solides dans l'écosystème PyTorch facilitent le déploiement et l'évaluation des modèles.
Pourquoi c'est important
Ces avancées permettent un déploiement plus efficace des modèles d'IA sur divers appareils, réduisant les coûts de calcul et élargissant les possibilités d'application dans des environnements mobiles et serveurs. Cela représente une étape importante vers une IA plus accessible et performante.
Article original : https://pytorch.org/blog/torchao-quantized-models-and-quantization-recipes-now-available-on-huggingface-hub/
Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.