Les modèles de langage multimodaux (MLLMs) progressent rapidement vers des agents incarnés polyvalents, mais les pipelines d'entraînement actuels manquent souvent d'alignement fin entre le contenu visuel et les sémantiques textuelles. ESCA introduit un nouveau cadre pour contextualiser ces agents grâce à une compréhension structurée de l'espace et du temps. Au cœur de cette approche se trouve SGClip, un modèle basé sur CLIP, ouvert et adaptable, conçu pour générer des graphes de scène. SGClip est entraîné sur plus de 87 000 vidéos ouvertes via un pipeline d'apprentissage neurosymbolique, exploitant l'auto-supervision et le raisonnement structuré, éliminant ainsi le besoin d'annotations humaines pour les graphes de scène. Ce modèle supporte à la fois l'inférence basée sur des prompts et l'ajustement fin pour des tâches spécifiques, excellant dans la génération de graphes de scène et la localisation d'actions. ESCA, combiné à SGClip, améliore de manière cohérente les performances des MLLMs, tant open-source que commerciaux, atteignant des résultats de pointe dans deux environnements incarnés. Il réduit significativement les erreurs de perception des agents et permet aux modèles open-source de surpasser les références propriétaires. Cette avancée a été reconnue comme un article phare à NeurIPS 2025, soulignant son importance dans le domaine de la vision par ordinateur et de l'intelligence artificielle.