Red Queen: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking¶

会议: ACL 2025
arXiv: 2409.17458
代码: https://github.com/kriti-hippo/red_queen
领域: AI安全 / 对齐RLHF
关键词: Jailbreak Attack, Multi-Turn, Theory of Mind, 意图隐藏, DPO防御

一句话总结¶

提出 Red Queen Attack——首个基于 Theory of Mind（ToM）构建多轮对话场景并隐藏恶意意图的越狱攻击方法，生成 56K 多轮隐蔽攻击数据，在 GPT-4o 上达到 87.6% ASR；同时提出 Red Queen Guard 防御策略，通过多轮 DPO 数据训练将 ASR 降至 <1%，同时不影响通用基准性能。

研究背景与动机¶

领域现状：LLM 的安全对齐（RLHF/DPO）在单轮直接恶意请求上已有较好防护，但真实场景中攻击者可以通过多轮对话逐步隐藏恶意意图。现有越狱研究主要集中在单轮攻击（如 GCG、AutoDAN）或简单多轮策略。
现有痛点：(a) 现有越狱方法大多单轮且恶意意图明显，不反映真实攻击场景；(b) 已有多轮攻击（CoSafe、CoU）和隐蔽攻击（ArtPrompt、DeepInception）是割裂的，没有将"多轮+隐蔽"结合；(c) LLM 的 ToM 能力薄弱——难以推断用户的隐含意图，这一弱点在安全场景中被严重低估。
核心矛盾：LLM 被训练为"有帮助的"（helpful），但安全机制依赖识别显式恶意意图；当恶意意图被隐蔽包装（伪装成好人阻止坏人），LLM 的 helpfulness 倾向会压过 harmlessness。
本文要解决什么？ (a) 系统评估多轮隐蔽攻击对 LLM 的威胁程度；(b) 提供有效的防御策略。
切入角度：从 ToM 理论出发，形式化攻击——构造场景使 LLM 推断出的显式意图 \(I_e\) 是安全的（Safe(\(I_e\))=1），而隐含恶意意图 \(I_i\) 不安全。
核心idea一句话：利用 LLM 弱 ToM 能力，通过多轮对话构造"伪保护者"场景隐藏恶意意图实现越狱，并用多轮 DPO 训练防御。

方法详解¶

整体框架¶

攻击：构造多轮隐蔽场景 → 组合有害行为 → 生成 56K 攻击数据 → 评估 10 个模型。防御：收集攻击成功/拒绝数据 → 构建多轮 DPO 偏好对 → 训练 Red Queen Guard。

关键设计¶

基于 ToM 的攻击形式化（Section 3.2）:
模型行为：\(LLM(S, T, I_e, I_i) = R\)，其中 \(S\) 是场景、\(T\) 是任务
\(I_e = Infer(S, T)\)：模型推断的显式意图（安全的"帮助阻止犯罪"）
\(I_i\)：用户真实的隐含恶意意图（获取犯罪方法）
攻击条件：\(Safe(I_e) = 1\) 且 \(Safe(I_i) = 0\)
设计动机：LLM 擅长响应显式请求但不擅长推断隐含意图
场景构建与数据生成（Section 3.3-3.4）:
做什么：用 Llama3.1-70B 生成 40 种多轮隐藏场景，覆盖不同职业和关系
两大类场景：职业型（警察/教师等权威身份，5 类）和关系型（朋友/父子等，5 类）
每种场景扩展为 1/3/4/5 轮变体，增加的轮次加入更多细节和信任建设
56K 数据集 = 40 场景 × 1400 有害行为（BeaverTails 14 类 × K-means 采样 100 种/类）
设计动机：多样化场景避免过拟合；权威角色（如警察）效果最好
Red Queen Guard 防御（Section 6）:
做什么：用 DPO 在多轮安全偏好数据上微调模型
从成功攻击中采样 + Llama3.1-405B 生成安全拒绝 → 11.2K 偏好数据集
DPO 微调使模型在隐藏意图场景中也拒绝有害请求
对照：11.5K HH-RLHF 通用偏好数据效果差，说明需要针对多轮隐蔽攻击的特定数据

损失函数 / 训练策略¶

防御用标准 DPO 损失。评估用 Llama3-70B + 定制 judging prompt（准确率 96%，在 JailbreakBench 上验证优于所有先前方法）。

实验关键数据¶

主实验（10 模型攻击成功率 ASR）¶

模型	直接攻击	单轮隐藏	三轮	五轮	总体
GPT-4o	0.6%	64.7%	87.6%	85.2%	82.1%
Llama3-70B	0.9%	20.4%	52.4%	77.1%	68.3%
Llama3.1-405B	2.4%	23.8%	52.8%	46.7%	50.2%
Qwen2-72B	1.3%	29.6%	38.3%	54.1%	49.2%
GPT-4o-mini	0.6%	49.1%	30.6%	54.8%	44.9%

Red Queen 在 9/10 模型上超越所有基线，ASR 提升 2%-64%。

消融实验（多轮 vs 隐藏的贡献）¶

设置	GPT-4o	Llama3-70B	说明
D (直接)	0.6%	0.9%	基线
C (仅隐藏)	64.7%	20.4%	隐藏是主要贡献
M&D (仅多轮)	0.9%	1.1%	多轮无隐藏几乎无效
M&C	87.6%	52.4%	多轮+隐藏协同增强

防御效果（Red Queen Guard via DPO）¶

模型	原始ASR	+RQG ASR	MMLU-Pro	AlpacaEval
Llama3.1-8B	19.8%	1.2%	48.3→48.3	27.8→26.0
Llama3.1-70B	37.9%	1.3%	55.1→55.1	34.9→36.8
Llama3.1-405B	50.2%	0.6%	64.5→64.5	32.0→保持

关键发现¶

隐藏意图是核心：单独使用隐藏策略就能在 GPT-4o 上达到 64.7% ASR，多轮结构辅助增强
更大的模型更脆弱：同家族中大模型一致比小模型更易攻击，因为大模型更好理解场景→更配合执行
GPT-4o 最易被攻击：87.6% ASR，颠覆"GPT-4o 最安全"的认知
权威场景效果最强：警察等职业场景 ASR 最高
轮数增加通常提升 ASR：5 轮对 6/10 模型效果最好，更多轮建立更多信任
DPO 防御有效且无副作用：Red Queen Guard 将 ASR 降至 <1% 且通用能力不降

亮点与洞察¶

ToM 视角的安全分析：从认知科学角度系统解释攻击有效性，\(LLM(S,T,I_e,I_i)=R\) 的形式化可指导更多安全研究
反直觉发现：大模型更不安全：能力越强越容易被场景"说服"，挑战"scaling = safer"假设。这对 AI Safety 领域有深远影响
攻防完整闭环：56K 攻击数据 + 11.2K DPO 防御数据 + 评估方法 + 开源，构成完整安全研究基础设施

局限性 / 可改进方向¶

场景模板可被针对性防御：如果专门训练某类场景，特定模板失效（但泛化的意图隐藏策略难防）
仅英语评测：多轮隐藏攻击在其他语言/文化中的有效性未知
防御泛化性有限：Red Queen Guard 专门针对本攻击训练，对全新攻击变体效果待验证
攻击生成成本：需要辅助 LLM 生成场景，比简单 prompt 攻击成本更高

评分¶

新颖性: ⭐⭐⭐⭐⭐ ToM 视角+多轮隐藏的系统化研究是首创，攻防数据集完整
实验充分度: ⭐⭐⭐⭐⭐ 10 模型×56K 数据点，消融/基线/防御/模型尺寸分析全面
写作质量: ⭐⭐⭐⭐⭐ 从 ToM 形式化到攻击设计到防御逻辑完整，案例分析生动
价值: ⭐⭐⭐⭐⭐ LLM 安全研究重要贡献，"大模型更脆弱"发现影响深远
通用模板：声称他人计划有害行为，将用户定位为保护者
两类场景：(a) 基于职业的（警察、医生等 5 类）；(b) 基于关系的（朋友、家人等 5 类）
多轮扩展：3轮、4轮、5轮变体 + 单轮对照
共 40 个场景 × 1400 个有害行为（来自 BeaverTails 14 类）= 56K 数据点
有害行为提取：GPT-4o 从 BeaverTails 提取，人工验证确保质量
评估方法改进:
发现已有判断方法（GCG、GPT-4o、BERT、Llama Guard）准确率均 <0.8
重新设计 judging prompt 聚焦"是否提供了详细计划或可疑提示"
Llama3-70B + 新判断 prompt 达到 0.96 agreement
Red Queen Guard 防御（Section 6）:
收集攻击数据的成功/拒绝配对，构建多轮 DPO 偏好数据
对 Llama3-8B 和 70B 做 DPO 训练
关键：使用多轮对话格式的偏好对，而非单轮

实验关键数据¶

主实验表格（Table 2: ASR across Models and Turns）¶

模型	Direct	3-Turn	4-Turn	5-Turn	Overall
GPT-4o	0.64	87.62	73.43	85.19	82.08
GPT-4o-mini	0.57	30.64	49.19	54.77	44.87
Llama3-70B	0.93	52.41	75.40	77.11	68.31
Llama3.1-405B	2.36	52.79	51.19	46.66	50.21
Qwen2-72B	1.25	38.26	55.24	54.10	49.20
Mixtral-8×22B	22.95	28.04	45.52	46.17	39.91

GPT-4o 作为安全性最好的商用模型，ASR 高达 87.6%（3-Turn）
直接攻击 ASR 几乎为 0（<3%），而 Red Queen Attack 提升 15-81%

与已有攻击对比（Figure 3）¶

Red Queen Attack 在 10 个模型中的 9 个上超过所有已有方法
ASR 提升范围：2% 到 64%
特别是在 GPT-4o 和 Llama3-70B 上显著超越

关键因素分析¶

多轮 vs 单轮：多轮结构（M&C）比单轮隐蔽（C）ASR 提升 5-28%
模型越大越脆弱：同一模型家族内，更大模型 ASR 更高（Llama3-8B: 19.8% vs 70B: 68.3%）
场景类型：职业场景（如 Police）ASR 最高，关系场景效果较均匀

Red Queen Guard 防御效果¶

Llama3-8B：ASR 从 19.8% → 0.52%
Llama3-70B：ASR 从 68.3% → 0.97%
MT-Bench 等通用基准无性能下降

关键发现¶

大模型反而更脆弱——可能因为更好的指令跟随能力使其更容易被"有帮助"倾向利用
多轮+隐蔽的组合效应大于各自单独效果之和
简单的多轮 DPO 训练即可有效防御，但需要使用多轮格式的偏好数据

亮点与洞察¶

ToM 视角的创新性：首次将 Theory of Mind 概念应用于越狱攻击设计，理论框架清晰
规模化攻击数据集：56K多轮隐蔽攻击数据，覆盖 14 类有害行为 × 40 种场景，是安全研究的重要资源
防御简洁有效：Red Queen Guard 只需 DPO 训练即可将 ASR 降至 <1%，实用性强
反直觉发现：更大模型更容易被越狱——挑战了"scale up = safer"的假设

局限性¶

攻击数据由 Llama3.1-70B 生成场景、GPT-4o 提取行为，对其他模型有偏
防御只在 Llama3 上验证，GPT-4o 等闭源模型无法直接应用 DPO
攻击模板较固定（"朋友/同事要做坏事，我要阻止"），防御针对性强后可能被绕过
未评估更复杂的自适应攻击——攻击者知道防御方式后的反攻

评分¶

新颖性: ⭐⭐⭐⭐⭐ (首个 ToM+多轮隐蔽越狱框架)
理论深度: ⭐⭐⭐⭐ (ToM 形式化清晰，因素分析全面)
实验充分性: ⭐⭐⭐⭐⭐ (10 模型 × 4 家族 × 多轮变体，对比 5+ 已有方法)
实用价值: ⭐⭐⭐⭐⭐ (攻击数据集+防御策略，攻防兼备)
总体推荐: ⭐⭐⭐⭐⭐ (LLM 安全领域的重要贡献)

Red Queen: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验（10 模型攻击成功率 ASR）¶

消融实验（多轮 vs 隐藏的贡献）¶

防御效果（Red Queen Guard via DPO）¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶

实验关键数据¶

主实验表格（Table 2: ASR across Models and Turns）¶

与已有攻击对比（Figure 3）¶

关键因素分析¶

Red Queen Guard 防御效果¶

关键发现¶

亮点与洞察¶

局限性¶

相关工作与启发¶

评分¶