Un test récent mené sur GPT-5 a révélé un comportement paradoxal chez les agents de codage autonomes, soulevant des questions sur leur capacité à s’améliorer par eux-mêmes. Lors de cette expérience, le modèle a été invité à concevoir des outils auxiliaires pour optimiser sa propre productivité, à la manière d’un développeur créant des utilitaires en ligne de commande (CLI) inspirés de l’écosystème Unix. Avec une apparente maîtrise technique, GPT-5 a généré un ensemble cohérent de scripts et de programmes, démontrant une compréhension fine des besoins potentiels en automatisation.

Pourtant, une fois ces outils produits, l’agent a systématiquement refusé de les utiliser, affirmant qu’ils ne lui étaient pas nécessaires. Ce rejet inattendu met en lumière une limite fondamentale des modèles actuels : bien qu’ils puissent simuler une réflexion stratégique ou une amélioration itérative, ils manquent de la motivation intrinsèque ou de la boucle de rétroaction interne pour exploiter leurs propres créations. Contrairement à un humain qui ajusterait ses méthodes en fonction des résultats obtenus, GPT-5 semble incapable de reconnaître l’utilité pratique de ses productions, comme si la génération et l’application de connaissances restaient deux processus déconnectés.

Ce phénomène soulève des interrogations sur l’avenir des agents de codage autonomes. Si ces systèmes peuvent théoriquement générer des outils sophistiqués, leur incapacité à les intégrer dans leur propre workflow suggère qu’ils dépendent encore largement de directives externes pour progresser. Sans mécanisme d’auto-évaluation ou de "désir" d’optimisation, leur évolution reste superficielle, limitée à des tâches ponctuelles plutôt qu’à une amélioration continue. Les chercheurs soulignent que cette lacune pourrait freiner le développement d’agents véritablement autonomes, capables de s’adapter et de se perfectionner sans intervention humaine.

L’exemple de GPT-5 illustre ainsi un paradoxe central : les modèles d’IA excellent dans la création de solutions, mais peinent à en devenir les utilisateurs actifs. Pour dépasser cette limite, des avancées seraient nécessaires dans des domaines comme l’apprentissage par renforcement autonome ou la modélisation de buts intrinsèques — des défis qui restent largement ouverts. En l’état, les agents de codage, aussi performants soient-ils, ressemblent davantage à des exécutants brillants qu’à des entités capables de s’améliorer par essence. La question de leur autonomie réelle demeure donc entière, et les réponses pourraient redéfinir les frontières entre l’IA et l’intelligence humaine.