Red Queen: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking¶
会议: ACL 2025
arXiv: 2409.17458
代码: https://github.com/kriti-hippo/red_queen
领域: AI安全 / 对齐RLHF
关键词: Jailbreak Attack, Multi-Turn, Theory of Mind, 意图隐藏, DPO防御
一句话总结¶
提出 Red Queen Attack——首个基于 Theory of Mind(ToM)构建多轮对话场景并隐藏恶意意图的越狱攻击方法,生成 56K 多轮隐蔽攻击数据,在 GPT-4o 上达到 87.6% ASR;同时提出 Red Queen Guard 防御策略,通过多轮 DPO 数据训练将 ASR 降至 <1%,同时不影响通用基准性能。
研究背景与动机¶
-
领域现状:LLM 的安全对齐(RLHF/DPO)在单轮直接恶意请求上已有较好防护,但真实场景中攻击者可以通过多轮对话逐步隐藏恶意意图。现有越狱研究主要集中在单轮攻击(如 GCG、AutoDAN)或简单多轮策略。
-
现有痛点:(a) 现有越狱方法大多单轮且恶意意图明显,不反映真实攻击场景;(b) 已有多轮攻击(CoSafe、CoU)和隐蔽攻击(ArtPrompt、DeepInception)是割裂的,没有将"多轮+隐蔽"结合;(c) LLM 的 ToM 能力薄弱——难以推断用户的隐含意图,这一弱点在安全场景中被严重低估。
-
核心矛盾:LLM 被训练为"有帮助的"(helpful),但安全机制依赖识别显式恶意意图;当恶意意图被隐蔽包装(伪装成好人阻止坏人),LLM 的 helpfulness 倾向会压过 harmlessness。
-
本文要解决什么? (a) 系统评估多轮隐蔽攻击对 LLM 的威胁程度;(b) 提供有效的防御策略。
-
切入角度:从 ToM 理论出发,形式化攻击——构造场景使 LLM 推断出的显式意图 \(I_e\) 是安全的(Safe(\(I_e\))=1),而隐含恶意意图 \(I_i\) 不安全。
-
核心idea一句话:利用 LLM 弱 ToM 能力,通过多轮对话构造"伪保护者"场景隐藏恶意意图实现越狱,并用多轮 DPO 训练防御。
方法详解¶
整体框架¶
攻击:构造多轮隐蔽场景 → 组合有害行为 → 生成 56K 攻击数据 → 评估 10 个模型。 防御:收集攻击成功/拒绝数据 → 构建多轮 DPO 偏好对 → 训练 Red Queen Guard。
关键设计¶
- 基于 ToM 的攻击形式化(Section 3.2):
- 模型行为:\(LLM(S, T, I_e, I_i) = R\),其中 \(S\) 是场景、\(T\) 是任务
- \(I_e = Infer(S, T)\):模型推断的显式意图(安全的"帮助阻止犯罪")
- \(I_i\):用户真实的隐含恶意意图(获取犯罪方法)
- 攻击条件:\(Safe(I_e) = 1\) 且 \(Safe(I_i) = 0\)
-
设计动机:LLM 擅长响应显式请求但不擅长推断隐含意图
-
场景构建与数据生成(Section 3.3-3.4):
- 做什么:用 Llama3.1-70B 生成 40 种多轮隐藏场景,覆盖不同职业和关系
- 两大类场景:职业型(警察/教师等权威身份,5 类)和关系型(朋友/父子等,5 类)
- 每种场景扩展为 1/3/4/5 轮变体,增加的轮次加入更多细节和信任建设
- 56K 数据集 = 40 场景 × 1400 有害行为(BeaverTails 14 类 × K-means 采样 100 种/类)
-
设计动机:多样化场景避免过拟合;权威角色(如警察)效果最好
-
Red Queen Guard 防御(Section 6):
- 做什么:用 DPO 在多轮安全偏好数据上微调模型
- 从成功攻击中采样 + Llama3.1-405B 生成安全拒绝 → 11.2K 偏好数据集
- DPO 微调使模型在隐藏意图场景中也拒绝有害请求
- 对照:11.5K HH-RLHF 通用偏好数据效果差,说明需要针对多轮隐蔽攻击的特定数据
损失函数 / 训练策略¶
防御用标准 DPO 损失。评估用 Llama3-70B + 定制 judging prompt(准确率 96%,在 JailbreakBench 上验证优于所有先前方法)。
实验关键数据¶
主实验(10 模型攻击成功率 ASR)¶
| 模型 | 直接攻击 | 单轮隐藏 | 三轮 | 五轮 | 总体 |
|---|---|---|---|---|---|
| GPT-4o | 0.6% | 64.7% | 87.6% | 85.2% | 82.1% |
| Llama3-70B | 0.9% | 20.4% | 52.4% | 77.1% | 68.3% |
| Llama3.1-405B | 2.4% | 23.8% | 52.8% | 46.7% | 50.2% |
| Qwen2-72B | 1.3% | 29.6% | 38.3% | 54.1% | 49.2% |
| GPT-4o-mini | 0.6% | 49.1% | 30.6% | 54.8% | 44.9% |
Red Queen 在 9/10 模型上超越所有基线,ASR 提升 2%-64%。
消融实验(多轮 vs 隐藏的贡献)¶
| 设置 | GPT-4o | Llama3-70B | 说明 |
|---|---|---|---|
| D (直接) | 0.6% | 0.9% | 基线 |
| C (仅隐藏) | 64.7% | 20.4% | 隐藏是主要贡献 |
| M&D (仅多轮) | 0.9% | 1.1% | 多轮无隐藏几乎无效 |
| M&C | 87.6% | 52.4% | 多轮+隐藏协同增强 |
防御效果(Red Queen Guard via DPO)¶
| 模型 | 原始ASR | +RQG ASR | MMLU-Pro | AlpacaEval |
|---|---|---|---|---|
| Llama3.1-8B | 19.8% | 1.2% | 48.3→48.3 | 27.8→26.0 |
| Llama3.1-70B | 37.9% | 1.3% | 55.1→55.1 | 34.9→36.8 |
| Llama3.1-405B | 50.2% | 0.6% | 64.5→64.5 | 32.0→保持 |
关键发现¶
- 隐藏意图是核心:单独使用隐藏策略就能在 GPT-4o 上达到 64.7% ASR,多轮结构辅助增强
- 更大的模型更脆弱:同家族中大模型一致比小模型更易攻击,因为大模型更好理解场景→更配合执行
- GPT-4o 最易被攻击:87.6% ASR,颠覆"GPT-4o 最安全"的认知
- 权威场景效果最强:警察等职业场景 ASR 最高
- 轮数增加通常提升 ASR:5 轮对 6/10 模型效果最好,更多轮建立更多信任
- DPO 防御有效且无副作用:Red Queen Guard 将 ASR 降至 <1% 且通用能力不降
亮点与洞察¶
- ToM 视角的安全分析:从认知科学角度系统解释攻击有效性,\(LLM(S,T,I_e,I_i)=R\) 的形式化可指导更多安全研究
- 反直觉发现:大模型更不安全:能力越强越容易被场景"说服",挑战"scaling = safer"假设。这对 AI Safety 领域有深远影响
- 攻防完整闭环:56K 攻击数据 + 11.2K DPO 防御数据 + 评估方法 + 开源,构成完整安全研究基础设施
局限性 / 可改进方向¶
- 场景模板可被针对性防御:如果专门训练某类场景,特定模板失效(但泛化的意图隐藏策略难防)
- 仅英语评测:多轮隐藏攻击在其他语言/文化中的有效性未知
- 防御泛化性有限:Red Queen Guard 专门针对本攻击训练,对全新攻击变体效果待验证
- 攻击生成成本:需要辅助 LLM 生成场景,比简单 prompt 攻击成本更高
相关工作与启发¶
- vs DeepInception:科幻写作场景隐藏但只是单轮,Red Queen 结合多轮+权威角色更有效
- vs CoSafe:共指策略多轮但不隐藏意图,Red Queen 证明隐藏才是 ASR 提升主因
- vs BadChain/SEED Attack:操纵推理步骤而非对话场景——不同维度揭示 LLM 安全漏洞
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ ToM 视角+多轮隐藏的系统化研究是首创,攻防数据集完整
- 实验充分度: ⭐⭐⭐⭐⭐ 10 模型×56K 数据点,消融/基线/防御/模型尺寸分析全面
- 写作质量: ⭐⭐⭐⭐⭐ 从 ToM 形式化到攻击设计到防御逻辑完整,案例分析生动
- 价值: ⭐⭐⭐⭐⭐ LLM 安全研究重要贡献,"大模型更脆弱"发现影响深远
- 通用模板:声称他人计划有害行为,将用户定位为保护者
- 两类场景:(a) 基于职业的(警察、医生等 5 类);(b) 基于关系的(朋友、家人等 5 类)
- 多轮扩展:3轮、4轮、5轮变体 + 单轮对照
- 共 40 个场景 × 1400 个有害行为(来自 BeaverTails 14 类)= 56K 数据点
-
有害行为提取:GPT-4o 从 BeaverTails 提取,人工验证确保质量
-
评估方法改进:
- 发现已有判断方法(GCG、GPT-4o、BERT、Llama Guard)准确率均 <0.8
- 重新设计 judging prompt 聚焦"是否提供了详细计划或可疑提示"
-
Llama3-70B + 新判断 prompt 达到 0.96 agreement
-
Red Queen Guard 防御(Section 6):
- 收集攻击数据的成功/拒绝配对,构建多轮 DPO 偏好数据
- 对 Llama3-8B 和 70B 做 DPO 训练
- 关键:使用多轮对话格式的偏好对,而非单轮
实验关键数据¶
主实验表格(Table 2: ASR across Models and Turns)¶
| 模型 | Direct | 3-Turn | 4-Turn | 5-Turn | Overall |
|---|---|---|---|---|---|
| GPT-4o | 0.64 | 87.62 | 73.43 | 85.19 | 82.08 |
| GPT-4o-mini | 0.57 | 30.64 | 49.19 | 54.77 | 44.87 |
| Llama3-70B | 0.93 | 52.41 | 75.40 | 77.11 | 68.31 |
| Llama3.1-405B | 2.36 | 52.79 | 51.19 | 46.66 | 50.21 |
| Qwen2-72B | 1.25 | 38.26 | 55.24 | 54.10 | 49.20 |
| Mixtral-8×22B | 22.95 | 28.04 | 45.52 | 46.17 | 39.91 |
- GPT-4o 作为安全性最好的商用模型,ASR 高达 87.6%(3-Turn)
- 直接攻击 ASR 几乎为 0(<3%),而 Red Queen Attack 提升 15-81%
与已有攻击对比(Figure 3)¶
- Red Queen Attack 在 10 个模型中的 9 个上超过所有已有方法
- ASR 提升范围:2% 到 64%
- 特别是在 GPT-4o 和 Llama3-70B 上显著超越
关键因素分析¶
- 多轮 vs 单轮:多轮结构(M&C)比单轮隐蔽(C)ASR 提升 5-28%
- 模型越大越脆弱:同一模型家族内,更大模型 ASR 更高(Llama3-8B: 19.8% vs 70B: 68.3%)
- 场景类型:职业场景(如 Police)ASR 最高,关系场景效果较均匀
Red Queen Guard 防御效果¶
- Llama3-8B:ASR 从 19.8% → 0.52%
- Llama3-70B:ASR 从 68.3% → 0.97%
- MT-Bench 等通用基准无性能下降
关键发现¶
- 大模型反而更脆弱——可能因为更好的指令跟随能力使其更容易被"有帮助"倾向利用
- 多轮+隐蔽的组合效应大于各自单独效果之和
- 简单的多轮 DPO 训练即可有效防御,但需要使用多轮格式的偏好数据
亮点与洞察¶
- ToM 视角的创新性:首次将 Theory of Mind 概念应用于越狱攻击设计,理论框架清晰
- 规模化攻击数据集:56K多轮隐蔽攻击数据,覆盖 14 类有害行为 × 40 种场景,是安全研究的重要资源
- 防御简洁有效:Red Queen Guard 只需 DPO 训练即可将 ASR 降至 <1%,实用性强
- 反直觉发现:更大模型更容易被越狱——挑战了"scale up = safer"的假设
局限性¶
- 攻击数据由 Llama3.1-70B 生成场景、GPT-4o 提取行为,对其他模型有偏
- 防御只在 Llama3 上验证,GPT-4o 等闭源模型无法直接应用 DPO
- 攻击模板较固定("朋友/同事要做坏事,我要阻止"),防御针对性强后可能被绕过
- 未评估更复杂的自适应攻击——攻击者知道防御方式后的反攻
相关工作与启发¶
- 与 Cipher-Based Attack (Yuan et al., 2024) 对比:后者隐蔽但单轮,本文多轮+隐蔽效果更强
- 与 CoSafe (Yu et al., 2024) 对比:后者多轮但不隐蔽,ASR 显著低于 Red Queen
- 启发:ToM 能力是 LLM 安全的关键缺口——提升模型的意图推断能力可能比更多 RLHF 数据更有效
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ (首个 ToM+多轮隐蔽越狱框架)
- 理论深度: ⭐⭐⭐⭐ (ToM 形式化清晰,因素分析全面)
- 实验充分性: ⭐⭐⭐⭐⭐ (10 模型 × 4 家族 × 多轮变体,对比 5+ 已有方法)
- 实用价值: ⭐⭐⭐⭐⭐ (攻击数据集+防御策略,攻防兼备)
- 总体推荐: ⭐⭐⭐⭐⭐ (LLM 安全领域的重要贡献)