InternVLA-M1 : un cadre vision-langage-action guidé spatialement pour une politique robotique généraliste

16 octobre 2025

InternVLA-M1 représente une avancée majeure dans le domaine des politiques robotiques généralistes en proposant un cadre unifié qui intègre vision, langage et action grâce à un guidage spatial explicite. L'innovation centrale réside dans l'utilisation du repérage spatial comme lien fondamental entre les instructions linguistiques et les actions robotiques, permettant une meilleure compréhension contextuelle et une exécution plus précise des tâches.

L'architecture repose sur un pipeline en deux étapes : une phase de pré-entraînement sur le repérage spatial utilisant plus de 2,3 millions de données de raisonnement spatial pour déterminer "où agir", suivie d'une phase de post-formation guidée spatialement pour décider "comment agir" via un prompt spatial modulaire. Cette approche a démontré des gains substantiels, avec des améliorations de +14,6% sur SimplerEnv Google Robot, +17% sur WidowX et +4,3% sur LIBERO Franka par rapport aux variantes sans guidage spatial.

Pour étendre les capacités de suivi d'instructions, les chercheurs ont développé un moteur de simulation générant 244 000 épisodes de prise et placement généralisables, conduisant à une amélioration moyenne de 6,2% sur 200 tâches impliquant plus de 3000 objets. Les tests en conditions réelles ont confirmé ces performances avec une amélioration de 7,3% dans les environnements encombrés, atteignant même +20,6% sur des objets non vus et configurations nouvelles grâce à l'apprentissage mixte synthétique. Le cadre excelle particulièrement dans les scénarios complexes à raisonnement long terme, surpassant les travaux existants de plus de 10%.

Points clés

Cadre unifié vision-langage-action avec guidage spatial
Repérage spatial comme lien entre instructions et actions robotiques
Pipeline en deux étapes : pré-entraînement et post-formation spatiale
Améliorations substantielles sur plusieurs plateformes robotiques
Moteur de simulation générant 244 000 épisodes d'entraînement

Pourquoi c'est important

Ce travail est crucial car il adresse le défi fondamental de la généralisation en robotique en établissant le guidage spatial comme principe unificateur. Les améliorations significatives démontrées sur multiples plateformes suggèrent une voie prometteuse vers des robots véritablement polyvalents capables de s'adapter à des environnements complexes et imprévus, avec des implications majeures pour l'automatisation industrielle et domestique.

Article original : https://arxiv.org/abs/2510.13778

Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.