Cette recherche explore l'utilisation d'un grand modèle de langage (LLM) augmenté d'outils et déployé sur le web, agissant comme un coach santé interactif. L'étude, menée avec sept utilisateurs réels et 280 tours évalués, utilise l'évaluation hors ligne des politiques (OPE) pour analyser les décisions factorisées en têtes de décision (Outil/Style). Les résultats montrent qu'une politique uniforme favorisant fortement les outils augmente la valeur moyenne, mais peut nuire à des sous-groupes spécifiques, en particulier les utilisateurs ayant une faible littératie en santé mais une forte auto-efficacité. Un simulateur léger avec des archétypes cachés démontre qu'un petit bonus d'information précoce peut raccourcir l'identification des traits et améliorer le succès des objectifs et le taux de réussite à trois essais (pass@3). Ces résultats préliminaires suggèrent une approche d'évaluation d'abord pour la personnalisation : geler le générateur, apprendre des têtes de décision sensibles aux sous-groupes sur des récompenses typées (résultats objectifs des outils et satisfaction), et toujours rapporter des métriques par archétype pour révéler les préjudices aux sous-groupes que les moyennes obscurcissent. L'étude a été acceptée à l'atelier NeurIPS 2025 sur les interactions multi-tours dans les grands modèles de langage. Les implications de cette recherche sont significatives pour le développement de systèmes de coaching santé basés sur l'IA, mettant en lumière l'importance de la personnalisation et de l'évaluation des politiques pour éviter des effets néfastes sur certains sous-groupes d'utilisateurs.