PyTorch, en collaboration avec les équipes TorchAO, ExecuTorch et Unsloth, a rendu disponibles des modèles quantifiés tels que Phi4-mini-instruct, Qwen3, SmolLM3-3B et gemma-3-270m-it. Ces modèles utilisent des techniques de quantification int4 et float8 pour offrir une inférence efficace sur des GPU A100, H100 et des appareils mobiles, tout en maintenant une qualité de modèle comparable à leurs versions bfloat16. Les modèles pré-quantifiés sont optimisés pour des plateformes serveurs et mobiles, permettant aux utilisateurs de déployer des modèles plus rapides en production. Des recettes de quantification reproductibles et des guides complets sont également disponibles pour aider les utilisateurs à appliquer la quantification native PyTorch à leurs propres modèles et ensembles de données. Les modèles quantifiés montrent des améliorations de vitesse allant jusqu'à 2x sur H100 et des réductions de mémoire allant jusqu'à 60%, avec une dégradation minimale de la précision. Les intégrations solides au sein de l'écosystème PyTorch permettent des solutions de quantification robustes et performantes pour répondre à divers besoins de déploiement. Les modèles quantifiés et les recettes de quantification fonctionnent de manière transparente tout au long du cycle de vie de la préparation et du déploiement des modèles.