SAJA : un cadre d'attaque conjointe état-action sur l'apprentissage par renforcement profond multi-agents

16 octobre 2025

L'apprentissage par renforcement profond multi-agents (MADRL) représente une avancée significative pour les tâches coopératives et compétitives comme la conduite autonome ou les jeux stratégiques, mais ces modèles présentent une vulnérabilité critique face aux perturbations adverses. Les études antérieures se concentraient soit sur les attaques d'état uniquement, soit sur les attaques d'action uniquement, sans exploiter leurs interactions potentielles. Une simple combinaison aléatoire de ces perturbations ne permet pas de tirer parti des effets synergiques qui pourraient amplifier l'impact des attaques.

Le cadre SAJA propose une approche structurée en deux phases complémentaires : lors de la phase d'attaque d'état, une méthode d'ascension de gradient multi-étapes utilise à la fois le réseau acteur et le réseau critique pour calculer un état adversarial optimal. Puis, dans la phase d'attaque d'action, basée sur l'état perturbé, une seconde ascension de gradient exploitant le réseau critique génère l'action adversarial finale. Un régularisateur heuristique mesurant la distance entre les actions perturbées et les actions originales est intégré à la fonction de perte pour renforcer l'efficacité du guidage par le critique.

Les évaluations menées dans l'environnement Multi-Agent Particle Environment (MPE) démontrent que SAJA surpasse significativement les attaques isolées sur l'état ou l'action uniquement, tout en présentant un caractère plus furtif. Plus inquiétant, les méthodes de défense existantes ciblant spécifiquement les attaques d'état ou d'action se révèlent inefficaces contre cette approche conjointe, soulignant la nécessité de développer de nouvelles stratégies de protection adaptées à cette menace émergente.

Points clés

Attaque coordonnée état-action exploitant les interactions
Phase état : ascension de gradient utilisant acteur et critique
Phase action : génération d'actions adverses basée sur état perturbé
Régularisation heuristique pour contrôler la perturbation

Pourquoi c'est important

Cette recherche est cruciale car elle révèle une vulnérabilité systémique dans les systèmes MADRL déployés dans des domaines critiques comme les véhicules autonomes ou la robotique collaborative. L'incapacité des défenses existantes à contrer SAJA expose des risques opérationnels majeurs et souligne l'urgence de développer des contre-mesures robustes pour sécuriser l'intelligence artificielle distribuée.

Article original : https://arxiv.org/abs/2510.13262

Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.