RoboGPT-R1 propose une approche innovante pour renforcer les capacités de planification des robots dans des environnements complexes. Les modèles de langage et vision-langage traditionnels, bien que performants dans certaines tâches de planification, rencontrent des limitations importantes lorsqu'il s'agit de réaliser des manipulations à long terme dans le monde réel, principalement en raison de leurs capacités de raisonnement et de compréhension physique restreintes.
Le cadre développé combine deux phases d'apprentissage complémentaires : une première étape de fine-tuning supervisé qui permet d'acquérir les connaissances fondamentales à partir de séquences expertes, suivie d'une phase d'apprentissage par renforcement visant à corriger les lacunes du modèle dans la compréhension visuo-spatiale et le raisonnement. Cette approche hybride permet de dépasser les limitations du simple fine-tuning supervisé, qui souffre souvent de problèmes de généralisation et de compréhension physique insuffisante.
Pour garantir une cohérence dans les séquences d'actions et une compréhension physique adéquate dans les tâches de raisonnement multi-étapes, les chercheurs ont conçu une fonction de récompense basée sur des règles qui prend simultanément en compte les performances à long terme et les contraintes d'action dans l'environnement. Cette conception permet d'aligner efficacement le modèle sur les objectifs complexes de la robotique embarquée.
Les résultats expérimentaux démontrent l'efficacité de cette approche : le modèle entraîné sur Qwen2.5-VL-3B surpasse significativement le modèle GPT-4o-mini de 21,33% et dépasse d'autres travaux utilisant Qwen2.5-VL-7B de 20,33% sur le benchmark EmbodiedBench, prouvant ainsi que l'approche proposée permet d'obtenir des performances supérieures avec des modèles plus compacts.