L'article commence par introduire les modèles Vision-Language-Action (VLA) pour la manipulation robotique, soulignant que GR00T N1.5 de NVIDIA représente une évolution significative dans ce domaine. Ces modèles VLA sont des systèmes end-to-end qui prennent des signaux sensoriels bruts et prédisent directement des actions de contrôle sans planificateur externe. GR00T N1.5 se distingue par son architecture divisée en deux sous-systèmes : un encodeur Vision-Language (Eagle-2 VLM) et un transformateur d'action (Diffusion Policy Transformer), permettant de prédire des trajectoires d'actions sur un horizon de 16 étapes. La formation du modèle utilise un mélange de données réelles et synthétiques, totalisant environ 6 500 heures de données, ce qui réduit considérablement le coût du dataset. Les données synthétiques sont générées par des trajectoires de simulation et des scènes augmentées par des modèles vidéo, tandis que les vidéos humaines sont traitées par un VQ-VAE pour les intégrer dans l'espace latent du modèle. L'entraînement de GR00T N1.5 a été réalisé sur 50 000 heures GPU, utilisant des accélérateurs graphiques NVIDIA H100, et le modèle peut être inféré en environ 100 ms sur un NVIDIA Orin AGX, le rendant adapté aux plateformes humanoïdes mobiles. GR00T N1.5 est conçu comme un modèle de base pour la manipulation, permettant une adaptation rapide à de nouveaux types de robots et réduisant le volume de données nécessaires pour des tâches spécifiques, améliorant ainsi le taux de réussite dans les simulations et les tâches réelles.