Le Text-to-SQL multi-tours vise à traduire les énoncés conversationnels d'un utilisateur en requêtes SQL exécutables tout en préservant la cohérence du dialogue et l'ancrage au schéma de base de données cible. Cependant, la plupart des systèmes existants traitent cette tâche comme une simple traduction de texte et suivent un paradigme à court horizon, générant une requête par tour sans exécution, vérification explicite ni raffinement, ce qui conduit à des sorties non exécutables ou incohérentes.

MTSQL-R1 propose un cadre d'entraînement agentique pour le Text-to-SQL multi-tours à long horizon, modélisant la tâche comme un processus de décision markovien où un agent interagit avec une base de données pour obtenir un retour d'exécution et avec une mémoire de dialogue persistante pour la vérification de cohérence. L'agent effectue un cycle itératif de proposition d'exécution, vérification et raffinement jusqu'à ce que tous les contrôles soient validés.

Les expériences menées sur les jeux de données COSQL et SPARC démontrent que MTSQL-R1 surpasse systématiquement les modèles de référence, soulignant l'importance de la vérification pilotée par l'environnement et du raffinement guidé par la mémoire pour l'analyse sémantique conversationnelle. Les recettes complètes, incluant le code, les modèles entraînés, les journaux et les trajectoires de raisonnement, seront publiées après révision interne pour contribuer à la recherche communautaire.