Les modèles multi-modaux actuels utilisent des encodeurs et décodeurs distincts, ce qui limite l'apprentissage conjoint des représentations. Pour remédier à cela, les auteurs introduisent MDM (Multi-modal Diffusion Mamba), une architecture novatrice employant un modèle de diffusion basé sur Mamba pour générer et affiner progressivement des informations spécifiques à chaque modalité via un autoencodeur variationnel unifié. Cette approche permet à MDM d'exceller dans le traitement de données haute dimension, notamment pour la génération simultanée d'images haute résolution et de séquences textuelles longues. Les évaluations montrent que MDM surpasse significativement les modèles existants comme MonoFormer et LlamaGen, et rivalise avec des modèles de pointe tels que GPT-4V, Gemini Pro et Mistral, tout en maintenant une efficacité computationnelle élevée. MDM établit ainsi une nouvelle direction pour les architectures multi-modales de bout en bout, validant son efficacité dans des tâches variées comme la génération d'images, la légende d'images, la réponse à des questions visuelles, la compréhension de texte et le raisonnement. Cette avancée ouvre des perspectives prometteuses pour l'intégration harmonieuse de multiples modalités dans des systèmes d'IA performants et efficaces.
Diffusion Mamba multimodale de bout en bout
Article original : https://arxiv.org/abs/2510.13253
Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.