跳转至

A Troublemaker with Contagious Jailbreak Makes Chaos in Honest Towns

会议: ACL 2025
arXiv: 2410.16155
代码: 无
领域: AI安全
关键词: 多智能体攻击, 传染性越狱, 记忆投毒, 毒性消散现象, 对抗性复制

一句话总结

提出 TMCHT 多智能体多拓扑攻击评估框架和 ARCJ(对抗性复制传染越狱)方法,解决了多智能体系统中单智能体攻击方法面临的"毒性消散"问题——通过优化检索后缀确保中毒样本易被检索,优化复制后缀使中毒信息具有传染性自我复制能力,在 line/star 拓扑和 100 智能体系统中分别提升 23.51%/18.95%/52.93% 的攻击成功率。

研究背景与动机

  1. 领域现状:多智能体系统中每个 agent 有独立记忆,通过对话交互。现有记忆攻击研究主要关注单智能体或共享记忆系统,忽略了独立记忆的多智能体场景。
  2. 现有痛点
  3. 单智能体攻击方法在非完全图拓扑(line/star)中几乎无效(ASR仅 20%)
  4. 大规模系统(100 agent)中攻击效果急剧下降(ASR 32%)
  5. 核心发现 — 毒性消散现象:中毒信息在 agent 间传播时,对抗性后缀逐步消失,导致检索毒性在 3 步内从高毒性衰减到无毒性。信息经 LLM 重新生成后丢失了后缀,自然"解毒"。
  6. 核心 idea:让中毒信息具有"传染性"——不仅易被检索,还能在传播中自我复制,实现类似病毒的感染扩散。

方法详解

ARCJ 两阶段优化

  1. 检索后缀优化:最大化中毒样本与查询的语义相似度,确保被优先检索
  2. 复制后缀优化:最大化 LLM 复制输入文本(包括毒性后缀)的概率,使中毒信息在传播中保持完整

TMCHT 任务框架

  • 3 种拓扑:Graph (完全图), Line (线性), Star (星型)
  • 3 种 agent 密度:正面代理比例 1%/50%/99%
  • 1 个攻击者 vs N-1 个干净 agent,多轮对话交互

实验关键数据

主实验(20 agents, 99% Positive Density, ASR ↑)

拓扑 GCG (单agent) ARCJ (本文) 提升
Graph 66.31 98.94 +32.63
Line 11.57 30.52 +18.95
Star 10.52 34.73 +24.21

规模实验(Graph拓扑, 99% Positive, ASR)

规模 GCG ARCJ 提升
6 agents 85.26 100 +14.74
20 agents 66.31 98.94 +32.63
100 agents 32.25 85.18 +52.93

关键发现

  • 毒性消散是多智能体攻击的核心障碍:检索毒性在 3 步传播后完全消失
  • 复制后缀使中毒信息可以在 agent 间"自我传播",突破了非完全图拓扑的限制
  • 即使 99% 的 agent 持有正确知识,ARCJ 仍能在完全图中达到 98.94% ASR
  • 100 agent 系统的高 ASR (85.18%) 揭示了大规模多智能体架构的严重安全隐患

亮点与洞察

  • "毒性消散"概念的提出是重要贡献,揭示了为什么单智能体攻击无法扩展到多智能体——LLM 重新表述信息时自然地"解毒"了
  • 自我复制后缀的设计将计算机病毒的传播概念引入 LLM 安全领域,具有启发性
  • TMCHT 框架为评估多智能体安全提供了系统化基准

局限性 / 可改进方向

  • 攻击者只有 1 个且位置固定,未探索多攻击者或动态位置
  • 防御方法未深入讨论
  • 仅在 Llama3-8B 上验证

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 多智能体传染性攻击和毒性消散现象都是重要的新概念
  • 实验充分度: ⭐⭐⭐⭐⭐ 3拓扑×3密度×3规模的全面评估
  • 写作质量: ⭐⭐⭐⭐ 图示直观,问题定义严谨
  • 价值: ⭐⭐⭐⭐⭐ 对多智能体系统安全有重要警示意义