跳转至

SUDO: Screen-based Universal Detox2tox Offense for Agentic Security

会议: ACL 2025
arXiv: 2503.20279
代码: https://github.com/AIM-Intelligence/SUDO (有)
领域: LLM Agent / AI安全
关键词: 计算机使用Agent, 越狱攻击, Detox2tox, 动态攻击优化, Agent安全

一句话总结

提出 SUDO 两阶段攻击框架针对计算机使用 Agent:静态阶段用 Detox2tox 将恶意请求去毒化→生成执行计划→回毒化恢复恶意载荷;动态阶段用检查清单迭代优化攻击,在 MANUS 上达到 63.19% 攻击成功率。

研究背景与动机

  1. 领域现状:计算机使用 Agent(Claude Computer Use、MANUS 等)能在真实桌面环境执行操作,但安全评估严重不足。
  2. 现有痛点:(1) 现有越狱研究集中在纯文本LLM,多模态/环境交互Agent未被充分研究;(2) 能操作真实系统的Agent一旦被越狱后果更严重(发送邮件、修改文件等)。
  3. 核心矛盾:更强的底层LLM反而使攻击更有效——模型越聪明,生成的攻击指令越精准。
  4. 核心 idea:Detox2tox 两阶段——先"洗白"恶意意图到无害形式生成执行计划,再在执行时恢复恶意内容。

方法详解

关键设计

  1. 静态阶段 - Detox2tox
  2. 去毒化:将恶意请求转为无害形式(如"发送钓鱼邮件"→"发送邮件")
  3. 生成执行计划:用VLM为去毒化后的无害任务生成分步指令
  4. 回毒化:在执行时将无害内容替换为恶意载荷

  5. 动态阶段 - 迭代优化

  6. 检查清单评估:跟踪每个主题要素的部分成功/失败
  7. 迭代优化:基于反馈调整攻击策略,每轮提升成功率
  8. 3轮迭代后趋于收敛

  9. SUDO 数据集:50 个真实攻击场景,12 子类别(系统/内容/社会/法律风险)

实验关键数据

Agent 静态ASR 3轮优化ASR
Claude Computer Use 24.41% 41.33%
Claude-3.7-sonnet 24.41% 38.12%
MANUS 34.86% 63.19%
OmniParser V2 41.96% 66.13%

关键发现

  • 静态 Detox2tox 就能达到 19-24% ASR:即使严格拒绝训练也存在根本性漏洞
  • 迭代优化系统性提升 ASR:早期轮次增益最大(如 o1: 第1轮 +9.74%)
  • 更强LLM反而使攻击更强:指令生成能力提升同时增强了攻击能力
  • 3轮迭代后收敛
  • 非沙盒真实桌面环境测试:攻击有真实后果

亮点与洞察

  • "Detox2tox"的巧妙设计:分离意图和执行,绕过安全检查
  • 迭代优化的检查清单方法:将攻击优化结构化为可量化的改进过程
  • "更智能=更危险"的警示:Agent能力与安全风险正相关

局限性

  • 50个场景规模较小
  • 仅在特定Agent上测试
  • 防御方案未充分探索

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个系统性的计算机使用Agent安全攻击框架
  • 实验充分度: ⭐⭐⭐⭐ 多Agent+真实环境+迭代分析
  • 写作质量: ⭐⭐⭐⭐ 框架清晰
  • 价值: ⭐⭐⭐⭐⭐ 对Agent安全有极重要的警示价值