L’équipe RecSys R&D de T-Bank, active dans le développement de systèmes de recommandation au sein de l’écosystème T (allant des services financiers aux livraisons de produits et aux programmes de cashback), présente un nouveau jeu de données ouvert nommé T-ECD (T-Tech E-commerce Cross-Domain Dataset). Ce dernier a été conçu pour soutenir la recherche en matière de recommandations personnalisées, en s’appuyant sur des données réelles issues des plateformes de T-Bank, tout en garantissant une anonymisation totale.
Le caractère synthétique du jeu de données repose sur un échantillonnage statistique reproduisant fidèlement les propriétés des données originales, sans inclure d’informations personnelles identifiables. Cette approche permet de conserver des schémas réalistes — comme les comportements d’achat, les interactions entre utilisateurs et produits, ou les dynamiques transversales entre différents domaines (e-commerce, services financiers, etc.) — tout en éliminant les risques liés à la confidentialité. Le dataset couvre ainsi plusieurs secteurs, offrant un terrain d’étude varié pour évaluer la robustesse des algorithmes de recommandation dans des contextes multi-domaines.
T-ECD se distingue par sa structure riche, intégrant des métadonnées détaillées sur les utilisateurs (comportements, préférences), les articles (catégories, attributs), ainsi que les interactions (historique des clics, achats, évaluations). Pour faciliter son adoption, deux versions sont proposées : la version complète, adaptée aux recherches approfondies, et une version allégée (T-ECD-Small), idéale pour des tests rapides ou des environnements aux ressources limitées. Les deux sont désormais accessibles sur la plateforme Hugging Face, accompagnées d’une documentation technique pour guider leur utilisation.
L’objectif principal de ce projet est de combler un manque dans la communauté des systèmes de recommandation, où les jeux de données publics multi-domaines — à la fois réalistes et exempts de biais liés à la vie privée — restent rares. En partageant T-ECD, T-Bank souhaite encourager les avancées algorithmiques, notamment dans des scénarios complexes comme les recommandations croisées entre services (par exemple, suggérer un produit financier à un utilisateur en fonction de ses habitudes d’achat en ligne). Le dataset pourrait également servir de référence pour benchmarker de nouvelles approches, comme les modèles hybrides ou les architectures basées sur l’apprentissage par transfert.
Enfin, cette initiative s’inscrit dans une démarche plus large de collaboration ouverte, invitant chercheurs et praticiens à explorer les potentialités du dataset, à contribuer à son amélioration ou à partager leurs retours. Les créateurs soulignent l’importance de tels outils pour accélérer l’innovation dans un domaine où la personnalisation et l’éthique des données deviennent des enjeux centraux. Les détails techniques, exemples d’usage et liens vers les ressources sont disponibles dans l’article original, offrant une base solide pour démarrer des expérimentations.