Modèles unifiés du monde : planification et prévision augmentées par la mémoire pour la navigation visuelle

13 octobre 2025

La navigation visuelle pour les agents embarqués nécessite une capacité robuste à imaginer les états futurs, mais les approches actuelles adoptent des architectures modulaires qui séparent la planification de la modélisation du monde visuel. Cette séparation entraîne un désalignement entre les états et les actions, limitant l'adaptabilité dans des scénarios nouveaux ou dynamiques. Pour surmonter cette limitation fondamentale, les chercheurs proposent UniWM, un modèle de monde unifié et augmenté par la mémoire qui intègre l'anticipation visuelle égocentrique et la planification au sein d'un seul réseau autoregressif multimodal.

Contrairement aux frameworks modulaires, UniWM ancre explicitement les décisions d'action dans les résultats visuellement imaginés, garantissant un alignement étroit entre prédiction et contrôle. Un mécanisme de mémoire hiérarchique intègre en outre les indices perceptifs détaillés à court terme avec le contexte de trajectoire à plus long terme, permettant un raisonnement stable et cohérent sur des horizons étendus. Cette architecture unifiée élimine les inefficacités des systèmes modulaires tout en maintenant une cohérence temporelle.

Des expériences approfondies sur quatre benchmarks exigeants (Go Stanford, ReCon, SCAND, HuRoN) démontrent que UniWM améliore substantiellement les taux de réussite en navigation jusqu'à 30%, réduit significativement les erreurs de trajectoire par rapport aux bases de référence solides, et présente une impressionnante généralisation zéro-shot sur le jeu de données TartanDrive non vu. Ces résultats positionnent UniWM comme une avancée principiée vers la navigation embarquée unifiée et pilotée par l'imagination, ouvrant des perspectives pour des applications en robotique et systèmes autonomes.

Points clés

Un modèle unifié intègre anticipation visuelle et planification
Alignement étroit entre prédictions visuelles et décisions d'action
Mémoire hiérarchique combine indices perceptifs et contexte de trajectoire
Élimination des inefficacités des systèmes modulaires traditionnels
Maintien de la cohérence temporelle sur des horizons étendus

Pourquoi c'est important

Cette recherche est cruciale car elle résout un problème fondamental de désalignement dans les systèmes de navigation autonome. L'approche unifiée d'UniWM permet une meilleure adaptation aux environnements dynamiques et imprévus, avec des implications importantes pour le développement de robots et véhicules autonomes plus robustes et généralisables dans le monde réel.

Article original : https://arxiv.org/abs/2510.08713

Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.