L'étude ADMIT présente une nouvelle technique d'attaque par empoisonnement des connaissances spécifiquement conçue pour compromettre les systèmes de vérification des faits basés sur l'architecture RAG (Retrieval-Augmented Generation). Contrairement aux attaques précédentes, cette approche fonctionne dans des scénarios réalistes où le contexte récupéré inclut des preuves authentiques soutenant ou réfutant les affirmations, ce qui représente un défi plus complexe car les preuves crédibles dominent généralement le pool de récupération.
La méthode ADMIT utilise une approche en peu de coups et sémantiquement alignée qui permet d'inverser les décisions de vérification des faits et de générer des justifications trompeuses, le tout sans nécessiter d'accès aux modèles de langage cibles, aux systèmes de récupération ou de contrôle au niveau des tokens. L'attaque fonctionne en injectant stratégiquement du contenu adversarial dans les bases de connaissances, manipulant ainsi le contexte sur lequel s'appuient les LLM pour produire des sorties contrôlées par l'attaquant.
Les expérimentations exhaustives démontrent l'efficacité remarquable d'ADMIT avec un taux de réussite d'attaque moyen de 86% atteint avec un taux d'empoisonnement extrêmement faible de 0,93 × 10^-6. L'attaque reste robuste même en présence de contre-preuves solides et se transfère efficacement à travers 4 récupérateurs différents, 11 modèles de langage et 4 benchmarks inter-domaines, surpassant les attaques état de l'art précédentes de 11,2% en termes de taux de réussite global.