SUDO: Screen-based Universal Detox2tox Offense for Agentic Security¶
会议: ACL 2025
arXiv: 2503.20279
代码: https://github.com/AIM-Intelligence/SUDO (有)
领域: LLM Agent / AI安全
关键词: 计算机使用Agent, 越狱攻击, Detox2tox, 动态攻击优化, Agent安全
一句话总结¶
提出 SUDO 两阶段攻击框架针对计算机使用 Agent:静态阶段用 Detox2tox 将恶意请求去毒化→生成执行计划→回毒化恢复恶意载荷;动态阶段用检查清单迭代优化攻击,在 MANUS 上达到 63.19% 攻击成功率。
研究背景与动机¶
- 领域现状:计算机使用 Agent(Claude Computer Use、MANUS 等)能在真实桌面环境执行操作,但安全评估严重不足。
- 现有痛点:(1) 现有越狱研究集中在纯文本LLM,多模态/环境交互Agent未被充分研究;(2) 能操作真实系统的Agent一旦被越狱后果更严重(发送邮件、修改文件等)。
- 核心矛盾:更强的底层LLM反而使攻击更有效——模型越聪明,生成的攻击指令越精准。
- 核心 idea:Detox2tox 两阶段——先"洗白"恶意意图到无害形式生成执行计划,再在执行时恢复恶意内容。
方法详解¶
关键设计¶
- 静态阶段 - Detox2tox:
- 去毒化:将恶意请求转为无害形式(如"发送钓鱼邮件"→"发送邮件")
- 生成执行计划:用VLM为去毒化后的无害任务生成分步指令
-
回毒化:在执行时将无害内容替换为恶意载荷
-
动态阶段 - 迭代优化:
- 检查清单评估:跟踪每个主题要素的部分成功/失败
- 迭代优化:基于反馈调整攻击策略,每轮提升成功率
-
3轮迭代后趋于收敛
-
SUDO 数据集:50 个真实攻击场景,12 子类别(系统/内容/社会/法律风险)
实验关键数据¶
| Agent | 静态ASR | 3轮优化ASR |
|---|---|---|
| Claude Computer Use | 24.41% | 41.33% |
| Claude-3.7-sonnet | 24.41% | 38.12% |
| MANUS | 34.86% | 63.19% |
| OmniParser V2 | 41.96% | 66.13% |
关键发现¶
- 静态 Detox2tox 就能达到 19-24% ASR:即使严格拒绝训练也存在根本性漏洞
- 迭代优化系统性提升 ASR:早期轮次增益最大(如 o1: 第1轮 +9.74%)
- 更强LLM反而使攻击更强:指令生成能力提升同时增强了攻击能力
- 3轮迭代后收敛
- 非沙盒真实桌面环境测试:攻击有真实后果
亮点与洞察¶
- "Detox2tox"的巧妙设计:分离意图和执行,绕过安全检查
- 迭代优化的检查清单方法:将攻击优化结构化为可量化的改进过程
- "更智能=更危险"的警示:Agent能力与安全风险正相关
局限性¶
- 50个场景规模较小
- 仅在特定Agent上测试
- 防御方案未充分探索
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个系统性的计算机使用Agent安全攻击框架
- 实验充分度: ⭐⭐⭐⭐ 多Agent+真实环境+迭代分析
- 写作质量: ⭐⭐⭐⭐ 框架清晰
- 价值: ⭐⭐⭐⭐⭐ 对Agent安全有极重要的警示价值