Modèles de monde unifiés : planification et prévision augmentées par la mémoire pour la navigation visuelle

13 octobre 2025

Les agents autonomes dotés de capacités d'imagination des états futurs sont essentiels pour une navigation visuelle robuste et généralisable. Les approches actuelles adoptent généralement des architectures modulaires qui séparent la planification de la navigation de la modélisation du monde visuel, ce qui entraîne des désalignements entre états et actions ainsi qu'une adaptabilité limitée dans des scénarios nouveaux ou dynamiques.

Pour surmonter cette limitation fondamentale, les chercheurs proposent UniWM, un modèle de monde unifié et augmenté par la mémoire qui intègre l'anticipation visuelle égocentrique et la planification au sein d'une architecture autorégressive multimodale unique. Contrairement aux frameworks modulaires, UniWM ancre explicitement les décisions d'action dans les résultats visuellement imaginés, garantissant un alignement étroit entre prédiction et contrôle. Un mécanisme de mémoire hiérarchique intègre en outre les indices perceptifs détaillés à court terme avec le contexte de trajectoire à plus long terme, permettant un raisonnement stable et cohérent sur des horizons étendus.

Des expériences approfondies sur quatre benchmarks exigeants (Go Stanford, ReCon, SCAND, HuRoN) démontrent que UniWM améliore substantiellement les taux de réussite de navigation jusqu'à 30%, réduit significativement les erreurs de trajectoire par rapport aux bases de référence solides, et présente une impressionnante généralisation zero-shot sur le jeu de données TartanDrive non vu pendant l'entraînement. Ces résultats positionnent UniWM comme une avancée conceptuelle vers une navigation incarnée unifiée et pilotée par l'imagination.

Points clés

Intègre anticipation visuelle et planification dans une architecture unique
Ancre les décisions d'action dans les résultats visuellement imaginés
Utilise une mémoire hiérarchique combinant indices perceptifs et contexte de trajectoire
Garantit un alignement étroit entre prédiction et contrôle
Permet un raisonnement stable sur des horizons étendus

Pourquoi c'est important

Cette recherche adresse un défi fondamental en robotique autonome : l'alignement entre perception et action. L'approche unifiée permet aux agents de mieux anticiper les conséquences de leurs décisions, ce qui est crucial pour la navigation en environments réels complexes. Les améliorations significatives démontrées ouvrent la voie à des systèmes plus robustes et généralisables.

Article original : https://arxiv.org/abs/2510.08713

Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.