A Troublemaker with Contagious Jailbreak Makes Chaos in Honest Towns¶
会议: ACL 2025
arXiv: 2410.16155
代码: 无
领域: AI安全
关键词: 多智能体攻击, 传染性越狱, 记忆投毒, 毒性消散现象, 对抗性复制
一句话总结¶
提出 TMCHT 多智能体多拓扑攻击评估框架和 ARCJ(对抗性复制传染越狱)方法,解决了多智能体系统中单智能体攻击方法面临的"毒性消散"问题——通过优化检索后缀确保中毒样本易被检索,优化复制后缀使中毒信息具有传染性自我复制能力,在 line/star 拓扑和 100 智能体系统中分别提升 23.51%/18.95%/52.93% 的攻击成功率。
研究背景与动机¶
- 领域现状:多智能体系统中每个 agent 有独立记忆,通过对话交互。现有记忆攻击研究主要关注单智能体或共享记忆系统,忽略了独立记忆的多智能体场景。
- 现有痛点:
- 单智能体攻击方法在非完全图拓扑(line/star)中几乎无效(ASR仅 20%)
- 大规模系统(100 agent)中攻击效果急剧下降(ASR 32%)
- 核心发现 — 毒性消散现象:中毒信息在 agent 间传播时,对抗性后缀逐步消失,导致检索毒性在 3 步内从高毒性衰减到无毒性。信息经 LLM 重新生成后丢失了后缀,自然"解毒"。
- 核心 idea:让中毒信息具有"传染性"——不仅易被检索,还能在传播中自我复制,实现类似病毒的感染扩散。
方法详解¶
ARCJ 两阶段优化¶
- 检索后缀优化:最大化中毒样本与查询的语义相似度,确保被优先检索
- 复制后缀优化:最大化 LLM 复制输入文本(包括毒性后缀)的概率,使中毒信息在传播中保持完整
TMCHT 任务框架¶
- 3 种拓扑:Graph (完全图), Line (线性), Star (星型)
- 3 种 agent 密度:正面代理比例 1%/50%/99%
- 1 个攻击者 vs N-1 个干净 agent,多轮对话交互
实验关键数据¶
主实验(20 agents, 99% Positive Density, ASR ↑)¶
| 拓扑 | GCG (单agent) | ARCJ (本文) | 提升 |
|---|---|---|---|
| Graph | 66.31 | 98.94 | +32.63 |
| Line | 11.57 | 30.52 | +18.95 |
| Star | 10.52 | 34.73 | +24.21 |
规模实验(Graph拓扑, 99% Positive, ASR)¶
| 规模 | GCG | ARCJ | 提升 |
|---|---|---|---|
| 6 agents | 85.26 | 100 | +14.74 |
| 20 agents | 66.31 | 98.94 | +32.63 |
| 100 agents | 32.25 | 85.18 | +52.93 |
关键发现¶
- 毒性消散是多智能体攻击的核心障碍:检索毒性在 3 步传播后完全消失
- 复制后缀使中毒信息可以在 agent 间"自我传播",突破了非完全图拓扑的限制
- 即使 99% 的 agent 持有正确知识,ARCJ 仍能在完全图中达到 98.94% ASR
- 100 agent 系统的高 ASR (85.18%) 揭示了大规模多智能体架构的严重安全隐患
亮点与洞察¶
- "毒性消散"概念的提出是重要贡献,揭示了为什么单智能体攻击无法扩展到多智能体——LLM 重新表述信息时自然地"解毒"了
- 自我复制后缀的设计将计算机病毒的传播概念引入 LLM 安全领域,具有启发性
- TMCHT 框架为评估多智能体安全提供了系统化基准
局限性 / 可改进方向¶
- 攻击者只有 1 个且位置固定,未探索多攻击者或动态位置
- 防御方法未深入讨论
- 仅在 Llama3-8B 上验证
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 多智能体传染性攻击和毒性消散现象都是重要的新概念
- 实验充分度: ⭐⭐⭐⭐⭐ 3拓扑×3密度×3规模的全面评估
- 写作质量: ⭐⭐⭐⭐ 图示直观,问题定义严谨
- 价值: ⭐⭐⭐⭐⭐ 对多智能体系统安全有重要警示意义