Les grands modèles de langage (LLM) rencontrent des difficultés significatives dans les tâches de raisonnement et de planification complexes, comme en témoignent les faibles taux de réussite de modèles avancés tels que GPT-4o (7%) et DeepSeek-R1-671B (40%) sur le benchmark TravelPlanner. Bien que les systèmes multi-agents (MAS) puissent offrir un raisonnement collectif amélioré, ils souffrent généralement de coûts de raisonnement élevés dus aux interactions internes multiples, de latences importantes par réponse et de difficultés d'entraînement de bout en bout.
Pour résoudre ces limitations, les chercheurs proposent IMAGINE, un cadre général et évolutif qui intègre les capacités de raisonnement et de planification d'un MAS dans un seul modèle compact. Cette approche permet non seulement de reproduire les capacités structurées d'un MAS bien organisé, mais aussi de les dépasser significativement grâce à un simple entraînement de bout en bout. L'innovation principale réside dans la capacité à condenser l'intelligence collective d'un système multi-agents en un modèle unique et plus efficace.
Les résultats expérimentaux démontrent l'efficacité remarquable de cette approche : en utilisant Qwen3-8B-Instruct comme modèle de base et en l'entraînant avec la méthode IMAGINE, le modèle atteint un taux de réussite final de 82,7% sur TravelPlanner, surpassant largement les 40% de DeepSeek-R1-671B tout en maintenant une taille de modèle beaucoup plus réduite. Cette performance exceptionnelle ouvre de nouvelles perspectives pour le développement de modèles plus compacts et efficaces dans les tâches de raisonnement complexe.