ESCA : Contextualisation d'agents incarnés via la génération de graphes de scène

21 octobre 2025

recherchevision

Les modèles de langage multimodaux (MLLMs) progressent rapidement vers des agents incarnés polyvalents, mais les pipelines d'entraînement actuels manquent souvent d'alignement fin entre le contenu visuel et les sémantiques textuelles. ESCA introduit un nouveau cadre pour contextualiser ces agents grâce à une compréhension structurée de l'espace et du temps. Au cœur de cette approche se trouve SGClip, un modèle basé sur CLIP, ouvert et adaptable, conçu pour générer des graphes de scène. SGClip est entraîné sur plus de 87 000 vidéos ouvertes via un pipeline d'apprentissage neurosymbolique, exploitant l'auto-supervision et le raisonnement structuré, éliminant ainsi le besoin d'annotations humaines pour les graphes de scène. Ce modèle supporte à la fois l'inférence basée sur des prompts et l'ajustement fin pour des tâches spécifiques, excellant dans la génération de graphes de scène et la localisation d'actions. ESCA, combiné à SGClip, améliore de manière cohérente les performances des MLLMs, tant open-source que commerciaux, atteignant des résultats de pointe dans deux environnements incarnés. Il réduit significativement les erreurs de perception des agents et permet aux modèles open-source de surpasser les références propriétaires. Cette avancée a été reconnue comme un article phare à NeurIPS 2025, soulignant son importance dans le domaine de la vision par ordinateur et de l'intelligence artificielle.

Article original : https://arxiv.org/abs/2510.15963

Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.