Génération augmentée par récupération multimodale avec des grands modèles de langage pour le VQA médical

17 octobre 2025

La recherche aborde le domaine du question-réponse visuel médical (MedVQA), qui permet aux professionnels de santé de poser des questions en langage naturel sur des images médicales pour faciliter la prise de décision clinique et les soins aux patients. Le système MasonNLP développé utilise un grand modèle de langage généraliste optimisé par instructions, intégré dans un cadre de génération augmentée par récupération (RAG) multimodal qui combine des exemples textuels et visuels provenant de données du domaine médical.

Cette approche permet d'ancrer les réponses du système dans des exemples cliniquement pertinents, améliorant ainsi le raisonnement, l'adhésion aux schémas médicaux et la qualité globale des réponses. Les évaluations montrent des améliorations significatives sur plusieurs métriques incluant dBLEU, ROUGE, BERTScore et des mesures basées sur les LLM, validant l'efficacité de cette méthode pour les tâches de traitement du langage naturel clinique multimodal.

Le système a obtenu une performance remarquable lors du défi MEDIQA-WV 2025 sur les soins des plaies, se classant 3ème parmi 19 équipes et 51 soumissions avec un score moyen de 41,37%. Cette performance démontre qu'une approche RAG légère avec des LLM généralistes - ajoutant seulement quelques exemples pertinents via un indexage et une fusion simples, sans entraînement supplémentaire ni reclassement complexe - constitue une base simple et efficace pour les tâches cliniques multimodales.

Points clés

Système de question-réponse visuel pour applications médicales
Combinaison de grands modèles de langage et de récupération multimodale
Amélioration des performances sur plusieurs métriques d'évaluation
Classé 3ème dans le défi MEDIQA-WV 2025 avec 19 équipes participantes
Approche légère sans entraînement supplémentaire requis

Pourquoi c'est important

Cette recherche est cruciale car elle démontre comment des techniques d'IA légères peuvent améliorer l'assistance médicale via l'analyse combinée d'images et de texte. Les implications incluent une meilleure prise de décision clinique et des soins plus personnalisés, tout en réduisant les risques d'erreurs médicales grâce à des réponses mieux contextualisées.

Article original : https://arxiv.org/abs/2510.13856

Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.