La recherche aborde le domaine du question-réponse visuel médical (MedVQA), qui permet aux professionnels de santé de poser des questions en langage naturel sur des images médicales pour faciliter la prise de décision clinique et les soins aux patients. Le système MasonNLP développé utilise un grand modèle de langage généraliste optimisé par instructions, intégré dans un cadre de génération augmentée par récupération (RAG) multimodal qui combine des exemples textuels et visuels provenant de données du domaine médical.
Cette approche permet d'ancrer les réponses du système dans des exemples cliniquement pertinents, améliorant ainsi le raisonnement, l'adhésion aux schémas médicaux et la qualité globale des réponses. Les évaluations montrent des améliorations significatives sur plusieurs métriques incluant dBLEU, ROUGE, BERTScore et des mesures basées sur les LLM, validant l'efficacité de cette méthode pour les tâches de traitement du langage naturel clinique multimodal.
Le système a obtenu une performance remarquable lors du défi MEDIQA-WV 2025 sur les soins des plaies, se classant 3ème parmi 19 équipes et 51 soumissions avec un score moyen de 41,37%. Cette performance démontre qu'une approche RAG légère avec des LLM généralistes - ajoutant seulement quelques exemples pertinents via un indexage et une fusion simples, sans entraînement supplémentaire ni reclassement complexe - constitue une base simple et efficace pour les tâches cliniques multimodales.