DiEmo-TTS : Représentations émotionnelles désentrelacées via distillation auto-supervisée pour le transfert d'émotions inter-locuteurs en synthèse vocale

20 octobre 2025

recherchetraitement du langage

DiEmo-TTS est une nouvelle approche pour le transfert d'émotions entre différents locuteurs dans la synthèse vocale. La méthode utilise une distillation auto-supervisée pour minimiser la perte d'informations émotionnelles tout en préservant l'identité du locuteur. Les auteurs introduisent un échantillonnage piloté par clusters et une perturbation de l'information pour conserver les émotions tout en éliminant les facteurs non pertinents. Une approche de clustering et d'appariement des émotions est également proposée, utilisant la prédiction d'attributs émotionnels et les embeddings de locuteurs, permettant une généralisation à des données non étiquetées. De plus, un transformateur à double conditionnement est conçu pour mieux intégrer les caractéristiques de style. Les résultats expérimentaux confirment l'efficacité de cette méthode pour apprendre des embeddings émotionnels indépendants du locuteur.
Cette étude aborde un défi majeur en synthèse vocale : la séparation des caractéristiques émotionnelles et des traits du locuteur. En utilisant des techniques avancées de clustering et de distillation, DiEmo-TTS parvient à améliorer la qualité de la synthèse vocale émotionnelle tout en préservant l'identité vocale unique de chaque locuteur.

Article original : https://arxiv.org/abs/2505.19687

Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.