Les modèles vision-langage (VLMs) obtiennent des résultats impressionnants dans des tâches multimodales comme la réponse à des questions visuelles, mais ils peuvent encore échouer même lorsque les preuves visuelles correctes sont présentes. Cette étude explore systématiquement si ces échecs proviennent d'une absence de perception des preuves ou d'une incapacité à les exploiter efficacement. En analysant la dynamique de l'attention par couche, les chercheurs ont découvert que les couches superficielles se concentrent principalement sur le texte, tandis que les couches profondes portent une attention sparse mais fiable sur les régions de preuves localisées. De manière surprenante, les VLMs perçoivent souvent les preuves visuelles même lorsqu'ils fournissent des réponses incorrectes, un phénomène que les auteurs appellent 'voir sans croire', largement présent dans les principales familles de VLMs. Sur la base de cette observation, les chercheurs introduisent une intervention au moment de l'inférence qui met en évidence les régions de preuves des couches profondes par un masquage sélectif basé sur l'attention. Cette méthode ne nécessite aucun entraînement et améliore systématiquement la précision sur plusieurs familles de modèles, y compris LLaVA, Qwen, Gemma et InternVL. Ces résultats montrent que les VLMs encodent des preuves fiables en interne mais les sous-utilisent, et que rendre ces signaux explicites peut combler le fossé entre la perception et le raisonnement, améliorant ainsi la compréhension diagnostique et la fiabilité des VLMs.
Voir sans croire : explorer le décalage entre l'attention visuelle et la justesse des réponses dans les VLMs
Article original : https://arxiv.org/abs/2510.17771
Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.