Les grands modèles de langage transforment profondément le paysage de l'ingénierie logicielle, démontrant des capacités exceptionnelles dans des tâches variées telles que la génération, le débogage et le test de code. Cependant, une lacune significative persiste dans l'évaluation complète de la fiabilité de ces modèles dans des scénarios réels d'ingénierie logicielle. Les benchmarks existants souffrent d'une portée limitée des tâches et ne parviennent pas à incorporer des aspects critiques d'évaluation tels que la robustesse et la fiabilité des modèles. Pour combler cette lacune, les auteurs présentent un cadre d'évaluation appelé TREAT (Code LLMs Trustworthiness / Reliability Evaluation And Testing) qui fournit une évaluation holistique de la performance des modèles dans les tâches d'intelligence de code. Ce cadre d'évaluation aborde les limitations clés des approches existantes avec quatre améliorations principales : une évaluation holistique multi-tâches qui couvre diverses activités d'ingénierie logicielle plutôt que des tâches de codage limitées, une évaluation multi-langues et multi-modalités qui va au-delà des benchmarks traditionnels à langue unique et texte seul pour inclure des tâches de codage multi-modalités, une évaluation de la robustesse qui évalue la fiabilité des modèles sous des transformations de code préservant la sémantique, et une méthodologie d'évaluation rigoureuse qui améliore la fiabilité des résultats d'évaluation grâce à des prompts d'évaluation divers et une extraction de solutions adaptative. Basé sur ce cadre d'évaluation, les auteurs évaluent 26 modèles de pointe et découvrent à la fois leurs forces et leurs limitations, ce qui permet de tirer plusieurs conclusions clés : les modèles actuels montrent une variation substantielle de performance à travers les tâches de programmation, et les modèles de langage multi-modaux démontrent des limitations de performance spécifiques dans la génération et l'édition de code UI.