L'IA en programmation semble déjà bien intégrée dans nos dépôts de code, capable de corriger des bugs, de proposer des correctifs et de passer des tests sur des benchmarks habituels. Cela donne l'impression que des programmeurs IA complets sont sur le point de devenir une réalité. Cependant, dès qu'il s'agit de tâches industrielles réelles, cette image idyllique se fissure. Le nouveau benchmark SWE-Bench Pro a soumis les modèles à un examen rigoureux, révélant un grand écart entre l'autocomplétion polie et le travail de niveau ingénierie. Les systèmes les plus avancés échouent souvent lorsqu'il s'agit de comprendre et de gérer des projets grands et complexes, montrant ainsi les limites actuelles de l'IA dans le monde réel des tâches de programmation. Ce benchmark met en lumière les défis spécifiques auxquels l'IA est confrontée, tels que la compréhension du contexte global d'un projet, la gestion des dépendances et l'intégration de nouvelles fonctionnalités dans une base de code existante. Ces défis sont souvent sous-estimés dans les tests standardisés, mais ils sont cruciaux pour le travail réel des ingénieurs logiciels. Le benchmark SWE-Bench Pro offre une évaluation plus honnête et plus rigoureuse des capacités de l'IA, révélant ainsi les domaines dans lesquels des améliorations sont nécessaires pour que l'IA puisse vraiment assister, voire remplacer, les ingénieurs humains.