SciTrust 2.0 est un cadre d'évaluation complet conçu pour évaluer la fiabilité des grands modèles de langage (LLMs) dans les applications scientifiques. Ce cadre se concentre sur quatre dimensions principales : la véracité, la robustesse face aux attaques, la sécurité scientifique et l'éthique scientifique. Les auteurs ont développé des benchmarks innovants pour la véracité et l'éthique, validés par des experts, et ont évalué sept LLMs, dont quatre modèles spécialisés en science et trois modèles généraux. Les résultats montrent que les modèles généraux surpassent les modèles spécialisés en science dans toutes les dimensions de fiabilité, avec des lacunes particulièrement marquées dans le raisonnement logique et éthique des modèles spécialisés. De plus, ces derniers présentent des vulnérabilités préoccupantes en matière de sécurité, notamment dans des domaines à haut risque comme la biosécurité et les armes chimiques. En open-sourçant leur cadre, les auteurs visent à jeter les bases de systèmes d'IA plus fiables et à faire avancer la recherche sur la sécurité et l'éthique des modèles dans les contextes scientifiques. Ce travail met en lumière les défis actuels et les opportunités futures pour améliorer la fiabilité des LLMs dans des applications critiques. Les implications de cette étude sont vastes, car elles touchent à la fois à la recherche fondamentale et aux applications pratiques des LLMs dans divers domaines scientifiques.