Cette recherche aborde le défi majeur de l'observabilité partielle dans les agents de modèles vision-langage (VLM), qui doivent traiter des observations visuelles complexes contrairement aux modèles de langage (LLM) basés sur du texte. Les auteurs proposent VAGEN, un cadre qui renforce le raisonnement des agents VLM en décomposant le processus en estimation d'état et modélisation des transitions, deux éléments clés pour réussir dans des environnements partiellement observables. L'étude révèle que la représentation optimale des croyances internes des agents dépend de la tâche : le langage naturel excelle dans la capture des relations sémantiques pour les tâches générales, tandis que les formats structurés sont indispensables pour la manipulation et le contrôle précis. En s'appuyant sur ces insights, les chercheurs conçoivent une récompense de modélisation du monde qui fournit une supervision dense et introduisent une estimation générale de l'avantage bi-niveau pour une attribution de crédit consciente des tours. Grâce à cette approche, un modèle de 3 milliards de paramètres atteint un score de 0,82 sur cinq benchmarks d'agents divers, représentant une amélioration de 3 fois par rapport à sa contrepartie non entraînée et surpassant des modèles propriétaires comme GPT-5, Gemini 2.5 Pro et Claude 4.5. Tous les expériences sont menées dans le cadre VAGEN, un système évolutif pour l'entraînement et l'analyse d'agents VLM multi-tours dans divers environnements visuels. Le code et les données sont disponibles publiquement, et l'étude a été acceptée à NeurIPS 2025. Cette recherche met en lumière l'importance de la modélisation du monde et du raisonnement visuel pour les agents VLM, tout en offrant des outils pratiques pour la communauté de recherche. Les implications de cette étude sont vastes, allant de l'amélioration des systèmes autonomes à des applications potentielles dans des domaines tels que la robotique et l'interaction homme-machine.