Les agents web basés sur des modèles de langage multimodaux interagissent avec les environnements de pages web en générant des actions basées sur des captures d'écran. Les chercheurs proposent WebInject, une attaque par injection de prompt qui manipule l'environnement de la page web pour induire un agent web à effectuer une action spécifiée par un attaquant. Cette attaque ajoute une perturbation aux valeurs de pixels brutes de la page web rendue, ce qui, une fois mappé dans une capture d'écran, incite l'agent web à effectuer l'action souhaitée par l'attaquant. Les auteurs formulent la tâche de recherche de la perturbation comme un problème d'optimisation, mais la cartographie entre les valeurs de pixels brutes et la capture d'écran n'est pas différentiable, ce qui rend difficile la rétropropagation des gradients vers la perturbation. Pour surmonter cela, ils entraînent un réseau de neurones pour approximer la cartographie et appliquent une descente de gradient projetée pour résoudre le problème d'optimisation reformulé. Une évaluation approfondie sur plusieurs ensembles de données montre que WebInject est très efficace et surpasse significativement les méthodes de référence. Cette étude a été présentée à la conférence principale EMNLP 2025 et offre une meilleure compréhension des attaques par injection de prompt. Les sujets abordés incluent l'apprentissage automatique, l'intelligence artificielle, le calcul et le langage, ainsi que la reconnaissance des formes et la vision par ordinateur.
WebInject : Attaque par injection de prompt sur les agents web
Article original : https://arxiv.org/abs/2505.11717
Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.