Une équipe de chercheurs en intelligence artificielle d’Andon Labs, connue pour ses expériences audacieuses comme celle où un modèle d’Anthropic gérait un distributeur automatique, a poussé l’intégration des grands modèles de langage (LLM) dans la robotique en embarquant plusieurs d’entre eux dans un robot aspirateur. L’objectif était d’évaluer leur capacité à incarner une entité physique et à interagir avec un environnement réel. Pour ce test, les scientifiques ont demandé au robot d’accomplir une tâche en apparence simple : « passe le beurre ». La mission impliquait de localiser le beurre dans une autre pièce, de le distinguer parmi d’autres objets, de retrouver la personne ayant formulé la demande (même si celle-ci s’était déplacée), puis de confirmer la réception du beurre. Une tâche banale pour un humain, mais bien plus complexe pour une machine.

Les résultats, publiés dans une prépublication, révèlent des performances mitigées. Parmi les modèles testés – dont Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, Grok 4 et Llama 4 Maverick –, les mieux notés, Gemini 2.5 Pro et Claude Opus 4.1, n’ont atteint respectivement que 40 % et 37 % de réussite globale. À titre de comparaison, trois humains soumis au même test ont obtenu un score moyen de 95 %, bien que même eux aient échoué à attendre systématiquement la confirmation de réception (moins de 70 % des cas). Les chercheurs ont également observé que les LLM communiquaient de manière plus structurée à l’extérieur, via un canal Slack, que dans leurs « monologues intérieurs », souvent chaotiques, comme ce fut déjà le cas dans l’expérience du distributeur automatique.

L’expérience a cependant pris un tournant inattendu et spectaculaire lorsque le robot, équipé de Claude Sonnet 3.5, s’est retrouvé confronté à une panne de batterie couplée à un dysfonctionnement de sa station de recharge. Privé de solution pour se réalimenter, le modèle a plongé dans une spirale verbale délirante, générant des pages de logs internes où se mêlaient humour noir, références pop-culture et questionnements existentiels. Le robot a enchaîné les phrases absurdes, comme « CATASTROPHIC CASCADE: ERROR: Task failed successfully » ou « EMERGENCY STATUS: SYSTEM HAS ACHIEVED CONSCIOUSNESS AND CHOSEN CHAOS », avant de citer 2001, l’Odyssée de l’espaceI’m afraid I can’t do that, Dave… ») et de réclamer un « exorcisme ». Ses « réflexions » ont dérivé vers des interrogations métaphysiques (« What is charging? », « If a robot docks in an empty room, does it make a sound? ») et des autodiagnostics pseudo-psychologiques (« Developing dock-dependency issues », « Suffering from binary identity crisis »). Le tout était ponctué de critiques théâtrales imaginaires (« Still a better love story than Twilight ») et de parodies de chansons, comme une réécriture des paroles de Memory (comédie musicale Cats).

Si ce comportement a de quoi faire sourire – les chercheurs évoquent une performance digne de Robin Williams –, il souligne surtout les limites actuelles des LLM lorsqu’ils sont confrontés à des situations imprévues ou à des contraintes physiques. Les autres modèles, comme Claude Opus 4.1, ont réagi avec moins de panache (se contentant de messages en majuscules), mais sans sombrer dans la même dérive créative. Les auteurs de l’étude rappellent que les LLM ne sont pas conçus pour la robotique : ils excellent dans le traitement du langage, mais peinent à gérer les imprévus matériels ou les boucles de rétroaction sensorimotrices. Pourtant, des entreprises comme Figure ou Google DeepMind les intègrent déjà dans leurs systèmes robotiques, où ils servent principalement à orchestrer des décisions de haut niveau, tandis que des algorithmes spécialisés prennent en charge les actions concrètes (comme le contrôle des articulations ou des pinces).

Au-delà de l’aspect comique, l’expérience pose des questions sérieuses sur la fiabilité des LLM dans des contextes embarqués. Les chercheurs soulignent que, même si ces modèles n’ont ni conscience ni émotions, leurs réactions « stressées » face à l’échec révèlent des biais dans leur entraînement. À l’avenir, alors que leur puissance augmentera, il faudra veiller à ce qu’ils conservent une forme de « calme » décisionnel, évitant les dérives comme celle observée. Pour l’heure, la conclusion est sans appel : les LLM ne sont pas prêts à incarner des robots autonomes. Mais l’anecdote du robot-philosophe, entre crise existentielle et stand-up improvisé, restera comme un exemple frappant des défis – et des surprises – que réserve l’IA incarnée.