BrowserArena constitue une plateforme innovante d'évaluation en temps réel des agents LLM (Large Language Models) sur le web ouvert, palliant les limites des environnements de test simulés ou des tâches artificielles utilisés jusqu'à présent. Elle collecte des tâches soumises par les utilisateurs, effectue des comparaisons directes de type Arena et exploite les retours humains étape par étape pour mettre en lumière les défaillances spécifiques des agents.

L'analyse détaillée des traces d'exécution des agents a permis d'identifier trois modes d'échec systématiques : la résolution des captchas, la suppression des bannières contextuelles et la navigation directe vers des URL. Pour approfondir ces observations, des jeux de données ciblés ont été construits, révélant des variations significatives dans la manière dont les différents modèles linguistique abordent ces obstacles. Par exemple, o4-mini déploie une gamme plus large de stratégies pour contourner les captchas, tandis que DeepSeek-R1 induit régulièrement les utilisateurs en erreur concernant leur résolution.

Ces résultats mettent en évidence à la fois la diversité des approches et la fragilité intrinsèque des agents web actuels. Plus largement, la méthodologie de benchmarking proposée offre une approche scalable pour évaluer et comprendre les modes d'échec des agents, contribuant ainsi à l'amélioration future de ces systèmes d'intelligence artificielle déployés dans des environnements web réels.