Les modèles vision-langage (VLMs) permettent la classification zero-shot en alignant images et texte dans un espace partagé, une approche prometteuse dans des conditions de rareté de données. Cependant, l'influence de la conception des prompts sur la reconnaissance de catégories visuellement similaires, comme les postures humaines, reste mal comprise. Cette étude examine comment la spécificité des prompts affecte la classification zero-shot des postures assise, debout et marche/course sur un petit ensemble de données de 285 images dérivé de COCO.

Une suite de VLMs modernes, incluant OpenCLIP, MetaCLIP 2 et SigLip, a été évaluée en utilisant une conception de prompts à trois niveaux qui augmente systématiquement le détail linguistique. Les résultats révèlent une tendance contre-intuitive : pour les modèles les plus performants (MetaCLIP 2 et OpenCLIP), les prompts les plus simples et basiques obtiennent systématiquement les meilleurs résultats. L'ajout de détails descriptifs dégrade significativement les performances, avec par exemple une chute de précision multi-classe de 68,8% à 55,1% pour MetaCLIP 2, un phénomène qualifié de 'prompt overfitting'.

À l'inverse, le modèle SigLip, moins performant, montre une amélioration de la classification sur les classes ambiguës lorsqu'il reçoit des prompts plus descriptifs basés sur les indices corporels. Cette recherche met en lumière l'importance cruciale de l'ingénierie des prompts dans les applications de vision par ordinateur et suggère que la simplicité peut être plus efficace que la complexité descriptive pour certains modèles VLMs performants.