InternVLA-M1 représente une avancée majeure dans le domaine des politiques robotiques généralistes en proposant un cadre unifié qui intègre vision, langage et action grâce à un guidage spatial explicite. L'innovation centrale réside dans l'utilisation du repérage spatial comme lien fondamental entre les instructions linguistiques et les actions robotiques, permettant une meilleure compréhension contextuelle et une exécution plus précise des tâches.
L'architecture repose sur un pipeline en deux étapes : une phase de pré-entraînement sur le repérage spatial utilisant plus de 2,3 millions de données de raisonnement spatial pour déterminer "où agir", suivie d'une phase de post-formation guidée spatialement pour décider "comment agir" via un prompt spatial modulaire. Cette approche a démontré des gains substantiels, avec des améliorations de +14,6% sur SimplerEnv Google Robot, +17% sur WidowX et +4,3% sur LIBERO Franka par rapport aux variantes sans guidage spatial.
Pour étendre les capacités de suivi d'instructions, les chercheurs ont développé un moteur de simulation générant 244 000 épisodes de prise et placement généralisables, conduisant à une amélioration moyenne de 6,2% sur 200 tâches impliquant plus de 3000 objets. Les tests en conditions réelles ont confirmé ces performances avec une amélioration de 7,3% dans les environnements encombrés, atteignant même +20,6% sur des objets non vus et configurations nouvelles grâce à l'apprentissage mixte synthétique. Le cadre excelle particulièrement dans les scénarios complexes à raisonnement long terme, surpassant les travaux existants de plus de 10%.