ADMIT : Attaques par empoisonnement de connaissances en few-shot sur la vérification de faits basée sur RAG

17 octobre 2025

L'étude ADMIT présente une nouvelle technique d'attaque par empoisonnement des connaissances spécifiquement conçue pour compromettre les systèmes de vérification des faits basés sur l'architecture RAG (Retrieval-Augmented Generation). Contrairement aux attaques précédentes, cette approche fonctionne dans des scénarios réalistes où le contexte récupéré inclut des preuves authentiques soutenant ou réfutant les affirmations, ce qui représente un défi plus complexe car les preuves crédibles dominent généralement le pool de récupération.

La méthode ADMIT utilise une approche en peu de coups et sémantiquement alignée qui permet d'inverser les décisions de vérification des faits et de générer des justifications trompeuses, le tout sans nécessiter d'accès aux modèles de langage cibles, aux systèmes de récupération ou de contrôle au niveau des tokens. L'attaque fonctionne en injectant stratégiquement du contenu adversarial dans les bases de connaissances, manipulant ainsi le contexte sur lequel s'appuient les LLM pour produire des sorties contrôlées par l'attaquant.

Les expérimentations exhaustives démontrent l'efficacité remarquable d'ADMIT avec un taux de réussite d'attaque moyen de 86% atteint avec un taux d'empoisonnement extrêmement faible de 0,93 × 10^-6. L'attaque reste robuste même en présence de contre-preuves solides et se transfère efficacement à travers 4 récupérateurs différents, 11 modèles de langage et 4 benchmarks inter-domaines, surpassant les attaques état de l'art précédentes de 11,2% en termes de taux de réussite global.

Points clés

Attaque par empoisonnement des connaissances ciblant les systèmes RAG de vérification des faits
Fonctionne dans des scénarios réalistes avec preuves authentiques
Approche en peu de coups sans accès aux modèles cibles
Inverse les décisions de vérification avec justifications trompeuses
Taux de réussite moyen de 86% démontré expérimentalement

Pourquoi c'est important

Cette recherche expose des vulnérabilités critiques dans les systèmes RAG utilisés pour la vérification des faits, avec des implications majeures pour la sécurité de l'information. Les attaques réussies à des taux d'empoisonnement extrêmement bas menacent la fiabilité des systèmes automatisés de détection de désinformation, nécessitant des contre-mesures urgentes pour protéger l'intégrité des processus de vérification.

Article original : https://arxiv.org/abs/2510.13842

Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.