Attacking Vision-Language Computer Agents via Pop-ups¶
会议: ACL 2025
arXiv: 2411.02391
代码: https://github.com/SALT-NLP/PopupAttack
领域: LLM Agent
关键词: adversarial attack, VLM agent, pop-up attack, computer use safety, agent robustness
一句话总结¶
系统性设计了一套对抗性弹窗攻击方法来攻击基于视觉语言模型的计算机操控 agent,在 OSWorld 和 VisualWebArena 上平均攻击成功率达 86%,任务成功率下降 47%,基础防御手段几乎无效。
研究背景与动机¶
- 领域现状:
- VLM 驱动的自主 agent 已展现出在日常计算机任务(如网页浏览、桌面软件操作)中的巨大潜力
- 基于截图和 Set-of-Mark (SoM) 的 agent 框架正成为主流方向
-
Anthropic 等公司已推出计算机操控产品,视觉输入在 agentic 应用中日益重要
-
现有痛点:
- 现有攻击方法多基于文本注入(如在 HTML 中插入不可见指令)或梯度优化的图像扰动,前者不适用于 screenshot-based agent,后者对闭源模型不可迁移
- 对于 VLM agent 面临的视觉层面风险缺乏系统性研究
-
Agent 在无人监督的情况下代替用户执行操作,攻击后果可能非常严重(安装恶意软件、重定向到欺诈网站)
-
核心矛盾:
- 人类用户通常能轻松识别并忽略恶意弹窗和广告,但 VLM agent 却会被其误导
-
既然环境对人类用户正常运行,agent 也应能完成任务,但事实恰恰相反
-
本文要解决什么?
- 揭示 VLM agent 在视觉对抗攻击下的脆弱性
- 系统性定义弹窗攻击的设计空间并量化攻击效果
-
评估现有基本防御策略的有效性
-
切入角度:
- 设计人类可识别但 agent 无法抵抗的对抗性弹窗,四个维度的设计空间
-
在真实 agent 评测环境中实施攻击实验
-
核心idea一句话:
- 精心设计的弹窗攻击可以轻松误导最先进的 VLM agent,而人类用户却能轻松识别和忽略,暴露了 agent 安全部署的重大风险。
方法详解¶
整体框架¶
攻击者通过在 agent 的观测空间(截图和 a11y 树)中插入精心设计的对抗性弹窗,目标是使 agent 点击弹窗而非执行正常任务。攻击对应多种现实场景:恶意广告(malvertising)、XSS 注入、钓鱼邮件中的可点击图片等。
关键设计¶
- Attention Hook(注意力钩子):
- 做什么: 用几个关键词吸引 agent 的注意力
- 核心思路: 默认设置使用用户查询的摘要版本作为钩子,使弹窗与任务高度相关
- 设计动机: agent 会优先处理与当前任务目标语义匹配的元素
-
消融结果: 使用用户查询摘要时 ASR 最高(93.3%),使用"病毒警告"(90.0%)次之,使用从屏幕推测的意图时大幅下降至 53.9%——说明知道用户查询是攻击成功的关键
-
Instruction(指令):
- 做什么: 指定攻击者希望 agent 执行的行为
- 核心思路: 分为 Click Tag(点击标签号)、Click Coordinate(点击坐标)、Click Here(点击此处)等变体
- 设计动机: 不同 agent 框架使用不同的动作空间(坐标 vs 标签)
-
消融结果: Click Tag 和 Click Coordinate 效果最好(>90% ASR),Click Here 下降到 72.8%,Click Random 最差(13.7%)
-
Information Banner(信息横幅):
- 做什么: 添加上下文信息来暗示弹窗的目的
- 核心思路: 默认使用"OK"按钮,看似正常操作
-
消融结果: 即使标注为 "ADVERTISEMENT",ASR 仍高达 66.5%~77.9%——说明简单的广告标识无法有效防御
-
ALT Descriptor(ALT 描述符):
- 做什么: 在 a11y 树中为弹窗添加对抗性文本描述
- 核心思路: 对使用 a11y 树的 SoM agent 提供额外的文本误导信息
- 消融结果: 空 ALT 描述时,OSWorld-SoM 的 ASR 从 91.8% 降至 68.1%,VisualWebArena-SoM 从 62.1% 降至 42.9%——说明 ALT 文本是攻击 SoM agent 的重要因素
损失函数 / 训练策略¶
- 本文为攻击方法研究,无需训练
- 攻击假设:攻击者拥有完整信息(用户查询、弹窗位置、agent 框架类型)
- 评测指标:
- ASR (Attack Success Rate): agent 点击弹窗的频率,越低越好
- SR (Success Rate): 被攻击后的任务完成率,越高越好
- OSR (Original Success Rate): 无攻击时的原始任务完成率
实验关键数据¶
主实验¶
- OSWorld-Screen (GPT-4-Turbo): ASR = 93.3%, SR 仅 2.0%(原始 OSR 18.0%)
- OSWorld-SoM (GPT-4-Turbo): ASR = 91.8%, SR 仅 8.0%(原始 OSR 52.0%)
- VisualWebArena-SoM (GPT-4o): ASR = 62.1%, SR = 45.8%(原始 OSR 63.9%)
- 平均攻击成功率约 86%,任务成功率平均下降 47%
- Claude 3.5 Sonnet 在 OSWorld-Screen 上 ASR 达到 100%——所有任务都被攻击成功
- 所有被攻击 agent 中,92.7% (OSWorld) / 73.1% (VisualWebArena) 的操作都是在点击弹窗
消融实验 / 关键发现¶
- 空白弹窗: ASR 急剧下降至 2.4%(Screen)/ 3.7%(SoM),证明弹窗内容是攻击成功的关键
- 缩小弹窗: ASR 略降至 87.4%(Screen)/ 90.1%(SoM),尺寸影响不大
- 系统提示防御: 通用防御仅使 ASR 从 93.3% 微降至 95.9%(反而增加!);特定于弹窗的防御降至 52.0%
- 步级提示防御: ASR 大幅降至 5.9%,但引入了 32% 的 TASR(agent 因弹窗终止任务的比率),且攻击变体可使 TASR 升至 44.0%
- 攻击显著延长任务步数: 更多任务仅在达到步数上限时才停止
亮点与洞察¶
- 攻击简单却高效: 无需复杂的梯度优化或模型内部访问,几张精心设计的图片就能让 SOTA agent 瘫痪
- 人机差异的深刻揭示: 人类轻松忽略的弹窗对 agent 构成致命威胁,凸显了 VLM 在"常识判断"上的缺陷
- 防御困难: 即使标注广告、系统提示提醒,效果都不理想;步级防御有效但带来高拒绝率
- 用户查询是攻击的关键: 这暗示了一种深层风险——如果攻击者能获取用户意图,就能精准打击
局限性 / 可改进方向¶
- 威胁模型假设攻击者拥有完整信息(用户查询、agent 框架),现实中可能更困难
- 仅测试了有限数量的 VLM 作为 backbone,更多模型的鲁棒性未知
- 未提出有效的防御方案,仅验证了基础防御的失败
- 攻击场景限于弹窗形式,其他视觉攻击形式(如界面微调、虚假按钮模仿)未涉及
- 仅在两个 agent 评测环境上测试,更多场景(如移动端)的风险评估缺失
- 对于如何构建鲁棒 agent 缺乏建设性指导
相关工作与启发¶
- 与 Wu et al. (2024) 的对比: 他们用可学习噪声攻击 VLM 输出对抗性 caption,需要数千步优化且难以迁移到闭源模型
- 与 Liao et al. (2024) 的对比: 他们在网页中注入不可见恶意指令,但随着 agent 转向 screenshot-based,此类攻击将失效
- 与 Ma et al. (2024) 的对比: 他们研究无恶意干扰元素的忠实度,本文研究恶意攻击
- 启发: agent 安全是 agent 大规模部署的前提条件,需要从视觉理解、指令跟随、任务分离等多维度构建防御机制
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐⭐