Les modèles de segmentation d'images ont fait des progrès significatifs en générant des masques de haute qualité pour les entités visuelles. Cependant, ils ne parviennent pas à fournir une compréhension sémantique complète pour des requêtes complexes basées à la fois sur le langage et la vision. Cette limitation réduit leur efficacité dans les applications nécessitant des interactions conviviales guidées par des prompts vision-langage. Pour combler cette lacune, les auteurs introduisent une nouvelle tâche de segmentation par expression de référence omnimodale (ORES), où un modèle produit un groupe de masques basé sur des prompts arbitraires spécifiés par du texte seul ou du texte plus des entités visuelles de référence. Pour relever ce nouveau défi, ils proposent un cadre novateur appelé 'Refer to Any Segmentation Mask Group' (RAS), qui augmente les modèles de segmentation avec des interactions multimodales complexes et une compréhension via un grand modèle multimodal centré sur les masques. Pour l'entraînement et l'évaluation des modèles ORES, ils créent des ensembles de données MaskGroups-2M et MaskGroups-HQ incluant divers groupes de masques spécifiés par du texte et des entités de référence. Grâce à une évaluation approfondie, ils démontrent la performance supérieure de RAS sur la nouvelle tâche ORES, ainsi que sur les tâches classiques de segmentation par expression de référence (RES) et de segmentation par expression de référence généralisée (GRES).
Référence à tout groupe de masques de segmentation avec des prompts vision-langage
Article original : https://arxiv.org/abs/2506.05342
Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.