La navigation visuelle pour les agents embarqués nécessite une capacité robuste à imaginer les états futurs, mais les approches actuelles adoptent des architectures modulaires qui séparent la planification de la modélisation du monde visuel. Cette séparation entraîne un désalignement entre les états et les actions, limitant l'adaptabilité dans des scénarios nouveaux ou dynamiques. Pour surmonter cette limitation fondamentale, les chercheurs proposent UniWM, un modèle de monde unifié et augmenté par la mémoire qui intègre l'anticipation visuelle égocentrique et la planification au sein d'un seul réseau autoregressif multimodal.
Contrairement aux frameworks modulaires, UniWM ancre explicitement les décisions d'action dans les résultats visuellement imaginés, garantissant un alignement étroit entre prédiction et contrôle. Un mécanisme de mémoire hiérarchique intègre en outre les indices perceptifs détaillés à court terme avec le contexte de trajectoire à plus long terme, permettant un raisonnement stable et cohérent sur des horizons étendus. Cette architecture unifiée élimine les inefficacités des systèmes modulaires tout en maintenant une cohérence temporelle.
Des expériences approfondies sur quatre benchmarks exigeants (Go Stanford, ReCon, SCAND, HuRoN) démontrent que UniWM améliore substantiellement les taux de réussite en navigation jusqu'à 30%, réduit significativement les erreurs de trajectoire par rapport aux bases de référence solides, et présente une impressionnante généralisation zéro-shot sur le jeu de données TartanDrive non vu. Ces résultats positionnent UniWM comme une avancée principiée vers la navigation embarquée unifiée et pilotée par l'imagination, ouvrant des perspectives pour des applications en robotique et systèmes autonomes.