L'apprentissage par renforcement profond multi-agents (MADRL) représente une avancée significative pour les tâches coopératives et compétitives comme la conduite autonome ou les jeux stratégiques, mais ces modèles présentent une vulnérabilité critique face aux perturbations adverses. Les études antérieures se concentraient soit sur les attaques d'état uniquement, soit sur les attaques d'action uniquement, sans exploiter leurs interactions potentielles. Une simple combinaison aléatoire de ces perturbations ne permet pas de tirer parti des effets synergiques qui pourraient amplifier l'impact des attaques.

Le cadre SAJA propose une approche structurée en deux phases complémentaires : lors de la phase d'attaque d'état, une méthode d'ascension de gradient multi-étapes utilise à la fois le réseau acteur et le réseau critique pour calculer un état adversarial optimal. Puis, dans la phase d'attaque d'action, basée sur l'état perturbé, une seconde ascension de gradient exploitant le réseau critique génère l'action adversarial finale. Un régularisateur heuristique mesurant la distance entre les actions perturbées et les actions originales est intégré à la fonction de perte pour renforcer l'efficacité du guidage par le critique.

Les évaluations menées dans l'environnement Multi-Agent Particle Environment (MPE) démontrent que SAJA surpasse significativement les attaques isolées sur l'état ou l'action uniquement, tout en présentant un caractère plus furtif. Plus inquiétant, les méthodes de défense existantes ciblant spécifiquement les attaques d'état ou d'action se révèlent inefficaces contre cette approche conjointe, soulignant la nécessité de développer de nouvelles stratégies de protection adaptées à cette menace émergente.