Modélisation des interactions d'experts dans les mélanges clairsemés d'experts via des structures de graphes

21 octobre 2025

rechercherecherche

Les modèles de mélange clairsemé d'experts (SMoE) sont une solution prometteuse pour atteindre une scalabilité sans précédent en apprentissage profond en découplant le nombre de paramètres du modèle du coût computationnel. Cependant, ces modèles peinent à s'adapter aux changements de distribution, ce qui réduit leur robustesse en cas de contamination des données. Cette étude introduit SymphonySMoE, une nouvelle famille de SMoE qui utilise un graphe social pour modéliser les interactions entre experts, améliorant ainsi le processus de routage des tokens et abordant les défis de robustesse inhérents aux conceptions SMoE conventionnelles. SymphonySMoE est léger, modulaire et s'intègre parfaitement avec les modèles existants basés sur SMoE tels que XMoE et le modèle de langage généraliste. Les auteurs fournissent à la fois une analyse théorique et des preuves empiriques démontrant les avantages de SymphonySMoE par rapport aux modèles SMoE de base. Des expériences approfondies sur la modélisation du langage et l'ajustement des instructions visuelles valident l'efficacité de cette méthode. De plus, l'étude met en évidence la scalabilité de SymphonySMoE pour des modèles avec 4,2 et 7,4 milliards de paramètres, montrant son applicabilité dans les tâches de fine-tuning pour les systèmes à grande échelle. SymphonySMoE représente une avancée significative dans le domaine des modèles de mélange d'experts, offrant une solution robuste et scalable pour les applications d'apprentissage profond. Les résultats obtenus démontrent une amélioration notable de la robustesse et de la performance des modèles, ouvrant la voie à de nouvelles applications dans divers domaines tels que le traitement du langage naturel et la vision par ordinateur.

Article original : https://arxiv.org/abs/2510.16411

Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.