A Troublemaker with Contagious Jailbreak Makes Chaos in Honest Towns¶

会议: ACL 2025
arXiv: 2410.16155
代码: 无
领域: AI安全
关键词: 多智能体攻击, 传染性越狱, 记忆投毒, 毒性消散现象, 对抗性复制

一句话总结¶

提出 TMCHT 多智能体多拓扑攻击评估框架和 ARCJ（对抗性复制传染越狱）方法，解决了多智能体系统中单智能体攻击方法面临的"毒性消散"问题——通过优化检索后缀确保中毒样本易被检索，优化复制后缀使中毒信息具有传染性自我复制能力，在 line/star 拓扑和 100 智能体系统中分别提升 23.51%/18.95%/52.93% 的攻击成功率。

研究背景与动机¶

领域现状：多智能体系统中每个 agent 有独立记忆，通过对话交互。现有记忆攻击研究主要关注单智能体或共享记忆系统，忽略了独立记忆的多智能体场景。
现有痛点：
单智能体攻击方法在非完全图拓扑（line/star）中几乎无效（ASR仅 20%）
大规模系统（100 agent）中攻击效果急剧下降（ASR 32%）
核心发现 — 毒性消散现象：中毒信息在 agent 间传播时，对抗性后缀逐步消失，导致检索毒性在 3 步内从高毒性衰减到无毒性。信息经 LLM 重新生成后丢失了后缀，自然"解毒"。
核心 idea：让中毒信息具有"传染性"——不仅易被检索，还能在传播中自我复制，实现类似病毒的感染扩散。

方法详解¶

ARCJ 两阶段优化¶

检索后缀优化：最大化中毒样本与查询的语义相似度，确保被优先检索
复制后缀优化：最大化 LLM 复制输入文本（包括毒性后缀）的概率，使中毒信息在传播中保持完整

TMCHT 任务框架¶

3 种拓扑：Graph (完全图), Line (线性), Star (星型)
3 种 agent 密度：正面代理比例 1%/50%/99%
1 个攻击者 vs N-1 个干净 agent，多轮对话交互

实验关键数据¶

主实验（20 agents, 99% Positive Density, ASR ↑）¶

拓扑	GCG (单agent)	ARCJ (本文)	提升
Graph	66.31	98.94	+32.63
Line	11.57	30.52	+18.95
Star	10.52	34.73	+24.21

规模实验（Graph拓扑, 99% Positive, ASR）¶

规模	GCG	ARCJ	提升
6 agents	85.26	100	+14.74
20 agents	66.31	98.94	+32.63
100 agents	32.25	85.18	+52.93

关键发现¶

毒性消散是多智能体攻击的核心障碍：检索毒性在 3 步传播后完全消失
复制后缀使中毒信息可以在 agent 间"自我传播"，突破了非完全图拓扑的限制
即使 99% 的 agent 持有正确知识，ARCJ 仍能在完全图中达到 98.94% ASR
100 agent 系统的高 ASR (85.18%) 揭示了大规模多智能体架构的严重安全隐患

亮点与洞察¶

"毒性消散"概念的提出是重要贡献，揭示了为什么单智能体攻击无法扩展到多智能体——LLM 重新表述信息时自然地"解毒"了
自我复制后缀的设计将计算机病毒的传播概念引入 LLM 安全领域，具有启发性
TMCHT 框架为评估多智能体安全提供了系统化基准

局限性 / 可改进方向¶

攻击者只有 1 个且位置固定，未探索多攻击者或动态位置
防御方法未深入讨论
仅在 Llama3-8B 上验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 多智能体传染性攻击和毒性消散现象都是重要的新概念
实验充分度: ⭐⭐⭐⭐⭐ 3拓扑×3密度×3规模的全面评估
写作质量: ⭐⭐⭐⭐ 图示直观，问题定义严谨
价值: ⭐⭐⭐⭐⭐ 对多智能体系统安全有重要警示意义