Spotify a développé un simulateur d'écoute musicale basé sur TensorFlow et TF-Agents pour entraîner des agents d'apprentissage par renforcement (RL). Ce simulateur permet de prototyper, tester et évaluer des modèles de recommandation musicale sans avoir à interagir directement avec les utilisateurs réels, évitant ainsi de potentiellement nuire à leur satisfaction pendant la phase d'entraînement. Le simulateur utilise un modèle d'utilisateur basé sur Keras pour prédire les réactions des utilisateurs aux recommandations musicales, ce qui permet d'optimiser les actions des agents pour maximiser la satisfaction simulée des utilisateurs. Les résultats obtenus en ligne sont fortement corrélés avec les performances hors ligne, ouvrant la voie à des expérimentations à grande échelle et à l'application de l'apprentissage par renforcement dans divers domaines de Spotify. Le simulateur est conçu de manière modulaire, avec des composants responsables de différentes parties de la simulation, tels que le modèle d'utilisateur, l'échantillonneur de pistes et le suivi des épisodes. Cette approche permet une intégration efficace avec les systèmes de production existants de Spotify, facilitant ainsi le déploiement des solutions développées.