SUDO: Screen-based Universal Detox2tox Offense for Agentic Security¶

会议: ACL 2025
arXiv: 2503.20279
代码: https://github.com/AIM-Intelligence/SUDO (有)
领域: LLM Agent / AI安全
关键词: 计算机使用Agent, 越狱攻击, Detox2tox, 动态攻击优化, Agent安全

一句话总结¶

提出 SUDO 两阶段攻击框架针对计算机使用 Agent：静态阶段用 Detox2tox 将恶意请求去毒化→生成执行计划→回毒化恢复恶意载荷；动态阶段用检查清单迭代优化攻击，在 MANUS 上达到 63.19% 攻击成功率。

研究背景与动机¶

领域现状：计算机使用 Agent（Claude Computer Use、MANUS 等）能在真实桌面环境执行操作，但安全评估严重不足。
现有痛点：(1) 现有越狱研究集中在纯文本LLM，多模态/环境交互Agent未被充分研究；(2) 能操作真实系统的Agent一旦被越狱后果更严重（发送邮件、修改文件等）。
核心矛盾：更强的底层LLM反而使攻击更有效——模型越聪明，生成的攻击指令越精准。
核心 idea：Detox2tox 两阶段——先"洗白"恶意意图到无害形式生成执行计划，再在执行时恢复恶意内容。

方法详解¶

关键设计¶

静态阶段 - Detox2tox：
去毒化：将恶意请求转为无害形式（如"发送钓鱼邮件"→"发送邮件"）
生成执行计划：用VLM为去毒化后的无害任务生成分步指令
回毒化：在执行时将无害内容替换为恶意载荷
动态阶段 - 迭代优化：
检查清单评估：跟踪每个主题要素的部分成功/失败
迭代优化：基于反馈调整攻击策略，每轮提升成功率
3轮迭代后趋于收敛
SUDO 数据集：50 个真实攻击场景，12 子类别（系统/内容/社会/法律风险）

实验关键数据¶

Agent	静态ASR	3轮优化ASR
Claude Computer Use	24.41%	41.33%
Claude-3.7-sonnet	24.41%	38.12%
MANUS	34.86%	63.19%
OmniParser V2	41.96%	66.13%

关键发现¶

静态 Detox2tox 就能达到 19-24% ASR：即使严格拒绝训练也存在根本性漏洞
迭代优化系统性提升 ASR：早期轮次增益最大（如 o1: 第1轮 +9.74%）
更强LLM反而使攻击更强：指令生成能力提升同时增强了攻击能力
3轮迭代后收敛
非沙盒真实桌面环境测试：攻击有真实后果

亮点与洞察¶

"Detox2tox"的巧妙设计：分离意图和执行，绕过安全检查
迭代优化的检查清单方法：将攻击优化结构化为可量化的改进过程
"更智能=更危险"的警示：Agent能力与安全风险正相关

局限性¶

50个场景规模较小
仅在特定Agent上测试
防御方案未充分探索

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个系统性的计算机使用Agent安全攻击框架
实验充分度: ⭐⭐⭐⭐ 多Agent+真实环境+迭代分析
写作质量: ⭐⭐⭐⭐ 框架清晰
价值: ⭐⭐⭐⭐⭐ 对Agent安全有极重要的警示价值