La fusion de modèles vise traditionnellement à combiner plusieurs modèles affinés en un seul ensemble de poids capable de bien performer sur toutes les tâches sources. Cependant, les approches conventionnelles présentent des limitations importantes lorsqu'elles sont appliquées à des modèles compressés en représentations de faible rang, que ce soit via l'adaptation de faible rang (LoRA) ou la décomposition en valeurs singulières post-entraînement. Les auteurs démontrent que l'application des méthodes de fusion classiques à ces poids de faible rang entraîne une dégradation significative des performances du modèle fusionné.
Face à ce constat, l'étude propose une approche fondamentalement différente : plutôt que de fusionner tous les adaptateurs en un seul ensemble de poids, la méthode RMM construit une base compacte à partir de laquelle les modèles spécifiques à chaque tâche peuvent être reconstruits par combinaison linéaire. Cette refonte conceptuelle transforme la fusion en la génération d'un espace de modèles capable de reconstruction plutôt qu'en la production d'un modèle fusionné unique.
La méthode RMM offre une solution efficace, sans données et flexible avec une solution de forme fermée pour sélectionner la base optimale des poids du modèle et les coefficients spécifiques aux tâches. Les expérimentations menées sur divers jeux de données et échelles de modèles montrent que RMM surpasse systématiquement les approches de fusion existantes, préservant les performances des modèles compressés en faible rang avec une marge significative.