R²ec représente une avancée significative dans le domaine des systèmes de recommandation en intégrant des capacités de raisonnement aux grands modèles de langage utilisés comme recommandateurs. Ce modèle unifié propose une architecture à double tête qui permet simultanément la génération de chaînes de raisonnement et la prédiction efficace d'items, réduisant ainsi considérablement la latence d'inférence par rapport aux approches précédentes. L'innovation majeure réside dans sa capacité à combiner raisonnement et recommandation au sein d'un seul modèle cohérent.
Pour pallier l'absence de données annotées de raisonnement dans le domaine de la recommandation, les chercheurs ont développé RecPO, un cadre d'apprentissage par renforcement qui optimise conjointement le raisonnement et la recommandation grâce à un mécanisme de récompense fusionnée. Cette approche permet au modèle d'apprendre à raisonner sur les préférences des utilisateurs sans nécessiter de jeux de données spécialisés, résolvant ainsi un défi majeur dans l'application des techniques de raisonnement aux systèmes de recommandation.
Les expérimentations menées sur trois jeux de données différents démontrent que R²ec surpasse les approches traditionnelles, les modèles basés sur LLM et les recommandateurs augmentés de raisonnement existants. Des analyses complémentaires confirment son efficacité compétitive par rapport aux modèles conventionnels et sa forte adaptabilité à divers scénarios de recommandation, ouvrant la voie à des systèmes plus intelligents et explicables.