Le langage comme étiquette : classification multimodale zéro-shot des postures quotidiennes en contexte de rareté de données

16 octobre 2025

Les modèles vision-langage (VLMs) permettent la classification zero-shot en alignant images et texte dans un espace partagé, une approche prometteuse dans des conditions de rareté de données. Cependant, l'influence de la conception des prompts sur la reconnaissance de catégories visuellement similaires, comme les postures humaines, reste mal comprise. Cette étude examine comment la spécificité des prompts affecte la classification zero-shot des postures assise, debout et marche/course sur un petit ensemble de données de 285 images dérivé de COCO.

Une suite de VLMs modernes, incluant OpenCLIP, MetaCLIP 2 et SigLip, a été évaluée en utilisant une conception de prompts à trois niveaux qui augmente systématiquement le détail linguistique. Les résultats révèlent une tendance contre-intuitive : pour les modèles les plus performants (MetaCLIP 2 et OpenCLIP), les prompts les plus simples et basiques obtiennent systématiquement les meilleurs résultats. L'ajout de détails descriptifs dégrade significativement les performances, avec par exemple une chute de précision multi-classe de 68,8% à 55,1% pour MetaCLIP 2, un phénomène qualifié de 'prompt overfitting'.

À l'inverse, le modèle SigLip, moins performant, montre une amélioration de la classification sur les classes ambiguës lorsqu'il reçoit des prompts plus descriptifs basés sur les indices corporels. Cette recherche met en lumière l'importance cruciale de l'ingénierie des prompts dans les applications de vision par ordinateur et suggère que la simplicité peut être plus efficace que la complexité descriptive pour certains modèles VLMs performants.

Points clés

Les prompts simples surpassent les prompts détaillés dans la classification zero-shot
L'ajout de détails linguistiques dégrade les performances des meilleurs modèles
MetaCLIP 2 et OpenCLIP montrent une chute de précision avec des prompts complexes
Ce phénomène est qualifié de 'prompt overfitting'
SigLip présente un comportement différent des autres modèles

Pourquoi c'est important

Cette étude est cruciale car elle remet en question l'intuition commune selon laquelle des descriptions plus détaillées améliorent la classification. Elle révèle un phénomène de 'prompt overfitting' qui pourrait optimiser l'utilisation des VLMs dans des domaines comme la santé, la surveillance ou la robotique où les données sont limitées. Ces résultats ont des implications pratiques importantes pour la conception de systèmes de vision par ordinateur en conditions réelles.

Article original : https://arxiv.org/abs/2510.13364

Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.