Évaluation hors ligne des politiques de coaching santé multi-tours par LLM avec des utilisateurs réels

21 octobre 2025

recherchesanté

Cette recherche explore l'utilisation d'un grand modèle de langage (LLM) augmenté d'outils et déployé sur le web, agissant comme un coach santé interactif. L'étude, menée avec sept utilisateurs réels et 280 tours évalués, utilise l'évaluation hors ligne des politiques (OPE) pour analyser les décisions factorisées en têtes de décision (Outil/Style). Les résultats montrent qu'une politique uniforme favorisant fortement les outils augmente la valeur moyenne, mais peut nuire à des sous-groupes spécifiques, en particulier les utilisateurs ayant une faible littératie en santé mais une forte auto-efficacité. Un simulateur léger avec des archétypes cachés démontre qu'un petit bonus d'information précoce peut raccourcir l'identification des traits et améliorer le succès des objectifs et le taux de réussite à trois essais (pass@3). Ces résultats préliminaires suggèrent une approche d'évaluation d'abord pour la personnalisation : geler le générateur, apprendre des têtes de décision sensibles aux sous-groupes sur des récompenses typées (résultats objectifs des outils et satisfaction), et toujours rapporter des métriques par archétype pour révéler les préjudices aux sous-groupes que les moyennes obscurcissent. L'étude a été acceptée à l'atelier NeurIPS 2025 sur les interactions multi-tours dans les grands modèles de langage. Les implications de cette recherche sont significatives pour le développement de systèmes de coaching santé basés sur l'IA, mettant en lumière l'importance de la personnalisation et de l'évaluation des politiques pour éviter des effets néfastes sur certains sous-groupes d'utilisateurs.

Article original : https://arxiv.org/abs/2510.17173

Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.