Les agents autonomes dotés de capacités d'imagination des états futurs sont essentiels pour une navigation visuelle robuste et généralisable. Les approches actuelles adoptent généralement des architectures modulaires qui séparent la planification de la navigation de la modélisation du monde visuel, ce qui entraîne des désalignements entre états et actions ainsi qu'une adaptabilité limitée dans des scénarios nouveaux ou dynamiques.

Pour surmonter cette limitation fondamentale, les chercheurs proposent UniWM, un modèle de monde unifié et augmenté par la mémoire qui intègre l'anticipation visuelle égocentrique et la planification au sein d'une architecture autorégressive multimodale unique. Contrairement aux frameworks modulaires, UniWM ancre explicitement les décisions d'action dans les résultats visuellement imaginés, garantissant un alignement étroit entre prédiction et contrôle. Un mécanisme de mémoire hiérarchique intègre en outre les indices perceptifs détaillés à court terme avec le contexte de trajectoire à plus long terme, permettant un raisonnement stable et cohérent sur des horizons étendus.

Des expériences approfondies sur quatre benchmarks exigeants (Go Stanford, ReCon, SCAND, HuRoN) démontrent que UniWM améliore substantiellement les taux de réussite de navigation jusqu'à 30%, réduit significativement les erreurs de trajectoire par rapport aux bases de référence solides, et présente une impressionnante généralisation zero-shot sur le jeu de données TartanDrive non vu pendant l'entraînement. Ces résultats positionnent UniWM comme une avancée conceptuelle vers une navigation incarnée unifiée et pilotée par l'imagination.