L'assemblage robotique repose souvent sur la planification de séquences et de poses de pièces, mais néglige les connecteurs, qui sont pourtant cruciaux pour le succès final de l'assemblage. Cette recherche propose une approche innovante en considérant les connecteurs comme des éléments de première importance dans la représentation de l'assemblage, incluant leurs types, spécifications, quantités et emplacements. S'inspirant de la manière dont les humains apprennent à assembler des objets à partir de manuels, les auteurs introduisent Manual2Skill++, un cadre basé sur des modèles vision-langage qui extrait automatiquement des informations structurées sur les connecteurs à partir de ces manuels. Les tâches d'assemblage sont encodées sous forme de graphes hiérarchiques où les nœuds représentent les pièces et les sous-assemblages, tandis que les arêtes modélisent explicitement les relations de connexion entre les composants. Un modèle vision-langage à grande échelle analyse les diagrammes symboliques et les annotations des manuels pour instancier ces graphes, exploitant ainsi les connaissances riches en connexions intégrées dans les instructions conçues par l'homme. Les auteurs ont constitué un ensemble de données contenant plus de 20 tâches d'assemblage avec divers types de connecteurs pour valider leur approche d'extraction de représentation. Ils ont également évalué le pipeline complet de compréhension à l'exécution des tâches dans quatre scénarios d'assemblage complexes en simulation, couvrant des meubles, des jouets et des composants de fabrication avec une correspondance dans le monde réel.
Cette méthode permet une meilleure compréhension et exécution des tâches d'assemblage par les robots, en intégrant les connecteurs comme éléments clés dès le début du processus. Les résultats montrent une amélioration significative de la précision et de la fiabilité de l'assemblage robotique, ouvrant la voie à des applications industrielles plus larges et plus complexes.
Manual2Skill++ : Assemblage robotique généraliste conscient des connecteurs à partir de manuels d'instructions via des modèles vision-langage
Article original : https://arxiv.org/abs/2510.16344
Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.