RT-2 (Robotic Transformer 2) représente une avancée majeure dans le domaine de l’intelligence artificielle appliquée à la robotique, en combinant pour la première fois vision, langage et action au sein d’un même modèle. Ce système innovant, qualifié de vision-langage-action (VLA), s’appuie sur une architecture de type transformer – similaire à celles utilisées dans les grands modèles de langage – mais adaptée pour interpréter des données visuelles et les convertir en commandes robotiques concrètes. Contrairement aux approches traditionnelles, qui nécessitent un apprentissage spécifique pour chaque tâche ou environnement, RT-2 est conçu pour généraliser ses connaissances à partir de deux sources distinctes : des données issues du web (comme des images annotées ou des descriptions textuelles) et des données robotiques (captures de capteurs, séquences d’actions, etc.). Cette dualité lui permet de transférer des concepts abstraits ou des instructions en langage naturel en actions physiques, sans requérir un réentraînement coûteux pour chaque nouveau scénario.

L’un des atouts clés de RT-2 réside dans sa capacité à comprendre et à exécuter des tâches jamais rencontrées auparavant, grâce à une compréhension sémantique approfondie du monde. Par exemple, si le modèle a appris à reconnaître une "pomme" dans des images en ligne et à associer ce concept à des verbes comme "saisir" ou "déplacer", il pourra appliquer cette connaissance pour manipuler un objet similaire dans un environnement réel, même si celui-ci diffère légèrement (forme, couleur, contexte). Cette généralisation est rendue possible par l’intégration de données variées : le modèle exploite les corpus textuels et visuels du web pour enrichir sa représentation du monde, puis affine ces connaissances avec des expériences robotiques réelles ou simulées. Ainsi, RT-2 surpasse les limites des modèles précédents, souvent cantonnés à des tâches prédéfinies ou à des environnements contrôlés, en offrant une flexibilité proche de l’adaptabilité humaine.

Les applications potentielles de RT-2 sont vastes et pourraient révolutionner des secteurs comme la logistique, l’assistance domestique ou la fabrication industrielle. En industrie, par exemple, un robot équipé de ce modèle pourrait interpréter une instruction vague comme "range les outils rouillés dans la boîte bleue" sans avoir été explicitement programmé pour cette tâche, en combinant sa compréhension des couleurs, des matériaux et des actions implicites. De même, dans un cadre domestique, RT-2 permettrait à un assistant robotique de réagir à des demandes complexes ou ambiguës, comme "nettoie la table après le dîner", en décomposant la requête en sous-tâches (identifier les objets à retirer, les classer, essuyer la surface) sans supervision humaine constante. Cette approche réduit considérablement le besoin de collecter des données robotiques spécifiques pour chaque situation, un processus souvent long et coûteux.

Cependant, des défis subsistent, notamment en matière de sécurité et de robustesse. La généralisation offerte par RT-2 repose sur des corrélations statistiques entre données visuelles, linguistiques et actions, ce qui peut conduire à des erreurs d’interprétation dans des contextes inhabituels ou mal définis. Par ailleurs, la dépendance à des données du web introduit des biais potentiels, comme la surreprésentation de certains objets ou actions dans les corpus d’entraînement. Les chercheurs soulignent donc la nécessité de mécanismes de validation rigoureux et d’une intégration progressive dans des environnements réels, où les conséquences d’une mauvaise décision robotique peuvent être critiques. Malgré ces enjeux, RT-2 marque une étape décisive vers des robots autonomes capables de comprendre et d’agir dans des mondes ouverts, rapprochant ainsi la robotique des capacités cognitives humaines.