Cette recherche présente CITE V.1, un cadre agentique basé sur des grands modèles de langage (LLM) conçu pour fournir des interprétations transparentes et reproductibles des clusters de données RNA-Seq. Contrairement aux méthodes existantes qui se limitent souvent à des associations statistiques larges, CITE V.1 produit des explications biologiquement cohérentes ancrées dans la littérature biomédicale. Le cadre utilise trois agents spécialisés : un Retriever qui collecte des connaissances à partir de PubMed et UniProt, un Interpreter qui formule des hypothèses fonctionnelles, et des Critics qui évaluent les affirmations et garantissent leur ancrage dans les preuves, tout en qualifiant l'incertitude grâce à des indicateurs de confiance et de fiabilité. Appliqué à des données RNA-Seq de Salmonella enterica, CITE V.1 a généré des insights biologiquement significatifs soutenus par la littérature, tandis qu'un modèle LLM seul, comme Gemini, a souvent produit des résultats spéculatifs avec des citations erronées. En passant d'une analyse de surface à une génération d'hypothèses auditable, interprétable et basée sur des preuves, CITE V.1 améliore la transparence et la fiabilité de l'IA en biomédecine.

L'étude met en évidence les limites des approches existantes, qui réduisent souvent les résultats à des associations statistiques larges et peu spécifiques. Les modèles basés uniquement sur des LLM, bien que prometteurs, risquent de produire des affirmations non soutenues ou des citations fabriquées. CITE V.1 surmonte ces limitations en intégrant des mécanismes de vérification et de critique, assurant ainsi que les interprétations sont non seulement biologiquement cohérentes mais aussi solidement ancrées dans les preuves disponibles. Cette approche permet une meilleure compréhension des données RNA-Seq et ouvre la voie à des applications plus fiables de l'IA dans le domaine biomédical.