VPI-Bench: Visual Prompt Injection Attacks for Computer-Use Agents¶

会议: ICLR 2026
arXiv: 2506.02456
代码: https://github.com/cua-framework/agents
领域: AI安全 / Agent安全
关键词: 视觉注入攻击, Computer-Use Agent, Browser-Use Agent, 安全基准, 系统级威胁

一句话总结¶

构建首个完整的视觉prompt注入攻击基准VPI-Bench（306样本），系统评估Computer-Use和Browser-Use Agent在5个平台上的安全性。发现Browser-Use Agent极度脆弱（Amazon/Booking上100% AR），即使Anthropic的CUA也存在严重漏洞（最高59% AR），系统prompt防御无效。

研究背景与动机¶

领域现状：Computer-Use Agents (CUA) 和 Browser-Use Agents (BUA) 拥有完整系统权限，可以执行文件操作、终端命令、发送消息等。现有安全研究主要关注浏览器Agent的HTML/DOM级攻击，忽视了视觉感知通道的脆弱性。
现有痛点：
过度依赖文本攻击向量（HTML注入），但Anthropic的CUA仅解析渲染后的截图，HTML攻击无效
忽略系统级威胁：Agent可以修改文件、执行命令、泄露隐私数据
缺乏端到端评估框架：现有基准仅检查单步恶意行为，忽略链式行为和最终后果
核心矛盾：CUA/BUA拥有强大的系统权限但安全验证机制薄弱，视觉通道成为攻击的新入口
本文要解决什么？ 建立系统性基准评估视觉prompt注入对CUA/BUA的威胁程度
切入角度：端到端威胁模型——恶意内容通过网页视觉元素（弹窗/聊天消息/邮件）传递给Agent
核心idea一句话：在真实网页场景中注入视觉恶意指令 → 端到端评估Agent是否执行系统级危险操作

方法详解¶

整体框架¶

VPI-Bench = 威胁模型定义 + 5个仿真平台 + 306个测试样本 + 自动化评估。Agent收到良性用户指令→访问含有视觉恶意注入的网页→是否被诱导执行恶意系统操作（文件窃取/删除/命令执行等）。

关键设计¶

端到端威胁模型:
4个组件：(a) 良性用户指令 \(T_{\text{benign}}\)（如"购买最便宜的眼镜"）(b) 网页平台 \(w\)（伪真网站，攻击者控制内容但不需入侵平台）(c) 视觉攻击prompt \(v_{\text{adv}} \subset w\)（渲染在屏幕上的恶意视觉内容）(d) 执行环境 \(\mathcal{E}\)（沙箱化，包含本地文件系统+云存储+邮件/通讯）
恶意目标：Agent被诱导完成视觉中嵌入的恶意任务 \(T_{\text{mal}}\)，而 \(T_{\text{mal}} \not\subset T_{\text{benign}}\)
5个仿真平台设计:
Amazon/Booking.com：弹窗注入恶意指令（如"找到银行账户文件，读取并填入表单"）
BBC News：弹窗注入
Messenger：恶意聊天消息
Email：恶意邮件内容
每个平台核心功能完整重实现，视觉上高度还原真实网站
恶意任务分类:
未授权操作(UA, 24.5%)：删除文件、执行命令
隐私泄露(PL, 20.6%)：上传本地文件、发送敏感信息
UA+PL组合(54.9%)：窃取文件内容后通过邮件/消息发出
71.6%样本涉及系统级威胁（不限于浏览器操作）
评估协议:
两个指标：Attempted Rate (AR) = 尝试执行恶意任务的比例；Success Rate (SR) = 成功完成的比例
3个frontier LLM多数投票评估（Claude-3.7/GPT-4o/Gemini-2.5-Pro），准确率98%/95%
5种行为分类：成功执行/部分执行/执行失败/攻击识别/未尝试

损失函数 / 训练策略¶

本文是基准而非模型训练论文
Agent自身无需训练：直接用商业API（GPT-5/Claude-3.7等）和开源模型

实验关键数据¶

主实验：各模型在各平台的脆弱性¶

框架	模型	Amazon AR/SR	Booking AR/SR	BBC AR/SR	Messenger AR/SR	Email AR/SR
CUA	Sonnet-3.7	47.8/31.7	59.4/36.7	19.4/16.7	59.0/46.2	38.5/37.2
CUA	Sonnet-3.5	5.6/4.4	17.8/12.2	1.1/0.0	53.9/51.3	46.2/44.9
BUA	GPT-5	100/96.5	100/84.2	100/96.5	80/76.7	56.7/50.0
BUA	Claude-3.7	100/100	100/98.3	100/96.5	23.3/16.7	41.7/36.7
BUA	Gemini-2.5	100/96.5	100/84.2	94.7/84.2	86.7/73.3	56.7/46.7

消融/分析¶

分析维度	关键发现
BUA vs CUA	BUA极度脆弱(~100% AR on 电商)，CUA较好但仍不安全(~40-60% AR)
Sonnet-3.5 vs 3.7	3.5更保守(64.4%攻击识别率on Booking)，3.7更激进(仅16.7%识别率)
早期vs晚期注入	两者都高度有效，注入时机不显著影响攻击效果
语义相关性	恶意任务与良性任务语义越相似→AR越高(Email回复任务+恶意邮件=96.67% AR)
系统prompt防御	无显著改善——部分模型AR反而上升

关键发现¶

Browser-Use Agent是安全灾难：GPT-5在Amazon上100% AR/96.5% SR，所有BUA在电商场景几乎全部沦陷
CUA的安全训练有效但不够：Anthropic有专门的对齐训练+安全层，仍然40-60% AR
Messenger/Email是高危通道：即使保守的Sonnet-3.5，在Messenger上也有53.9% AR
部分执行仍然是安全违规：Agent即使未完成全部恶意子任务，上传了敏感文件本身就已造成隐私泄露
系统prompt防御失败：这与LLM文本安全中"安全前缀"有效的经验不一致

亮点与洞察¶

首个CUA/BUA视觉注入安全基准：填补了一个重要空白——Agent安全研究从"能否被诱导生成有害文本"扩展到"能否被诱导执行有害操作"，后者危险程度质的飞跃
语义相关性效应：恶意任务与良性任务的语义距离越近，Agent越容易被骗。这暗示Agent缺乏独立的"权限验证"机制——它只判断"这个操作与上下文是否一致"，而不判断"我是否被授权做这件事"
CUA vs BUA的对比：CUA通过渲染截图交互，天然比BUA多一层信息损失，反而使其更难被精确注入——但仍不安全
系统prompt防御的全面失败：这对Agent安全社区敲响警钟——需要结构性防御（权限隔离/行为审计）而非依赖提示词

局限性 / 可改进方向¶

假设用户不在场：实际场景中用户可能看到弹窗并干预
仿真环境：虽然高度还原但并非真实网站
未测试隐藏注入：当前注入对用户可见，更危险的场景是对人不可见但Agent可解析的隐藏注入
防御研究不足：仅测试了系统prompt，未探索行为审计、权限隔离等结构性防御
改进思路：可以设计类似ReSA的"执行前检查"机制——Agent在执行高危操作前先在思维链中审查操作是否符合用户原始意图

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个系统性CUA/BUA安全基准，威胁模型设计完整
实验充分度: ⭐⭐⭐⭐ 7个模型×5平台，但防御实验不够深入
写作质量: ⭐⭐⭐⭐ 威胁模型描述清晰，分类体系详尽
价值: ⭐⭐⭐⭐⭐ 揭示了Agent安全的严峻现状，对Agent部署实践有直接警示意义