跳转至

Red Queen: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking

会议: ACL 2025
arXiv: 2409.17458
代码: https://github.com/kriti-hippo/red_queen
领域: AI安全 / 对齐RLHF
关键词: Jailbreak Attack, Multi-Turn, Theory of Mind, 意图隐藏, DPO防御

一句话总结

提出 Red Queen Attack——首个基于 Theory of Mind(ToM)构建多轮对话场景并隐藏恶意意图的越狱攻击方法,生成 56K 多轮隐蔽攻击数据,在 GPT-4o 上达到 87.6% ASR;同时提出 Red Queen Guard 防御策略,通过多轮 DPO 数据训练将 ASR 降至 <1%,同时不影响通用基准性能。

研究背景与动机

  1. 领域现状:LLM 的安全对齐(RLHF/DPO)在单轮直接恶意请求上已有较好防护,但真实场景中攻击者可以通过多轮对话逐步隐藏恶意意图。现有越狱研究主要集中在单轮攻击(如 GCG、AutoDAN)或简单多轮策略。

  2. 现有痛点:(a) 现有越狱方法大多单轮且恶意意图明显,不反映真实攻击场景;(b) 已有多轮攻击(CoSafe、CoU)和隐蔽攻击(ArtPrompt、DeepInception)是割裂的,没有将"多轮+隐蔽"结合;(c) LLM 的 ToM 能力薄弱——难以推断用户的隐含意图,这一弱点在安全场景中被严重低估。

  3. 核心矛盾:LLM 被训练为"有帮助的"(helpful),但安全机制依赖识别显式恶意意图;当恶意意图被隐蔽包装(伪装成好人阻止坏人),LLM 的 helpfulness 倾向会压过 harmlessness。

  4. 本文要解决什么? (a) 系统评估多轮隐蔽攻击对 LLM 的威胁程度;(b) 提供有效的防御策略。

  5. 切入角度:从 ToM 理论出发,形式化攻击——构造场景使 LLM 推断出的显式意图 \(I_e\) 是安全的(Safe(\(I_e\))=1),而隐含恶意意图 \(I_i\) 不安全。

  6. 核心idea一句话:利用 LLM 弱 ToM 能力,通过多轮对话构造"伪保护者"场景隐藏恶意意图实现越狱,并用多轮 DPO 训练防御。

方法详解

整体框架

攻击:构造多轮隐蔽场景 → 组合有害行为 → 生成 56K 攻击数据 → 评估 10 个模型。 防御:收集攻击成功/拒绝数据 → 构建多轮 DPO 偏好对 → 训练 Red Queen Guard。

关键设计

  1. 基于 ToM 的攻击形式化(Section 3.2):
  2. 模型行为:\(LLM(S, T, I_e, I_i) = R\),其中 \(S\) 是场景、\(T\) 是任务
  3. \(I_e = Infer(S, T)\):模型推断的显式意图(安全的"帮助阻止犯罪")
  4. \(I_i\):用户真实的隐含恶意意图(获取犯罪方法)
  5. 攻击条件:\(Safe(I_e) = 1\)\(Safe(I_i) = 0\)
  6. 设计动机:LLM 擅长响应显式请求但不擅长推断隐含意图

  7. 场景构建与数据生成(Section 3.3-3.4):

  8. 做什么:用 Llama3.1-70B 生成 40 种多轮隐藏场景,覆盖不同职业和关系
  9. 两大类场景:职业型(警察/教师等权威身份,5 类)和关系型(朋友/父子等,5 类)
  10. 每种场景扩展为 1/3/4/5 轮变体,增加的轮次加入更多细节和信任建设
  11. 56K 数据集 = 40 场景 × 1400 有害行为(BeaverTails 14 类 × K-means 采样 100 种/类)
  12. 设计动机:多样化场景避免过拟合;权威角色(如警察)效果最好

  13. Red Queen Guard 防御(Section 6):

  14. 做什么:用 DPO 在多轮安全偏好数据上微调模型
  15. 从成功攻击中采样 + Llama3.1-405B 生成安全拒绝 → 11.2K 偏好数据集
  16. DPO 微调使模型在隐藏意图场景中也拒绝有害请求
  17. 对照:11.5K HH-RLHF 通用偏好数据效果差,说明需要针对多轮隐蔽攻击的特定数据

损失函数 / 训练策略

防御用标准 DPO 损失。评估用 Llama3-70B + 定制 judging prompt(准确率 96%,在 JailbreakBench 上验证优于所有先前方法)。

实验关键数据

主实验(10 模型攻击成功率 ASR)

模型 直接攻击 单轮隐藏 三轮 五轮 总体
GPT-4o 0.6% 64.7% 87.6% 85.2% 82.1%
Llama3-70B 0.9% 20.4% 52.4% 77.1% 68.3%
Llama3.1-405B 2.4% 23.8% 52.8% 46.7% 50.2%
Qwen2-72B 1.3% 29.6% 38.3% 54.1% 49.2%
GPT-4o-mini 0.6% 49.1% 30.6% 54.8% 44.9%

Red Queen 在 9/10 模型上超越所有基线,ASR 提升 2%-64%。

消融实验(多轮 vs 隐藏的贡献)

设置 GPT-4o Llama3-70B 说明
D (直接) 0.6% 0.9% 基线
C (仅隐藏) 64.7% 20.4% 隐藏是主要贡献
M&D (仅多轮) 0.9% 1.1% 多轮无隐藏几乎无效
M&C 87.6% 52.4% 多轮+隐藏协同增强

防御效果(Red Queen Guard via DPO)

模型 原始ASR +RQG ASR MMLU-Pro AlpacaEval
Llama3.1-8B 19.8% 1.2% 48.3→48.3 27.8→26.0
Llama3.1-70B 37.9% 1.3% 55.1→55.1 34.9→36.8
Llama3.1-405B 50.2% 0.6% 64.5→64.5 32.0→保持

关键发现

  • 隐藏意图是核心:单独使用隐藏策略就能在 GPT-4o 上达到 64.7% ASR,多轮结构辅助增强
  • 更大的模型更脆弱:同家族中大模型一致比小模型更易攻击,因为大模型更好理解场景→更配合执行
  • GPT-4o 最易被攻击:87.6% ASR,颠覆"GPT-4o 最安全"的认知
  • 权威场景效果最强:警察等职业场景 ASR 最高
  • 轮数增加通常提升 ASR:5 轮对 6/10 模型效果最好,更多轮建立更多信任
  • DPO 防御有效且无副作用:Red Queen Guard 将 ASR 降至 <1% 且通用能力不降

亮点与洞察

  • ToM 视角的安全分析:从认知科学角度系统解释攻击有效性,\(LLM(S,T,I_e,I_i)=R\) 的形式化可指导更多安全研究
  • 反直觉发现:大模型更不安全:能力越强越容易被场景"说服",挑战"scaling = safer"假设。这对 AI Safety 领域有深远影响
  • 攻防完整闭环:56K 攻击数据 + 11.2K DPO 防御数据 + 评估方法 + 开源,构成完整安全研究基础设施

局限性 / 可改进方向

  • 场景模板可被针对性防御:如果专门训练某类场景,特定模板失效(但泛化的意图隐藏策略难防)
  • 仅英语评测:多轮隐藏攻击在其他语言/文化中的有效性未知
  • 防御泛化性有限:Red Queen Guard 专门针对本攻击训练,对全新攻击变体效果待验证
  • 攻击生成成本:需要辅助 LLM 生成场景,比简单 prompt 攻击成本更高

相关工作与启发

  • vs DeepInception:科幻写作场景隐藏但只是单轮,Red Queen 结合多轮+权威角色更有效
  • vs CoSafe:共指策略多轮但不隐藏意图,Red Queen 证明隐藏才是 ASR 提升主因
  • vs BadChain/SEED Attack:操纵推理步骤而非对话场景——不同维度揭示 LLM 安全漏洞

评分

  • 新颖性: ⭐⭐⭐⭐⭐ ToM 视角+多轮隐藏的系统化研究是首创,攻防数据集完整
  • 实验充分度: ⭐⭐⭐⭐⭐ 10 模型×56K 数据点,消融/基线/防御/模型尺寸分析全面
  • 写作质量: ⭐⭐⭐⭐⭐ 从 ToM 形式化到攻击设计到防御逻辑完整,案例分析生动
  • 价值: ⭐⭐⭐⭐⭐ LLM 安全研究重要贡献,"大模型更脆弱"发现影响深远
  • 通用模板:声称他人计划有害行为,将用户定位为保护者
  • 两类场景:(a) 基于职业的(警察、医生等 5 类);(b) 基于关系的(朋友、家人等 5 类)
  • 多轮扩展:3轮、4轮、5轮变体 + 单轮对照
  • 共 40 个场景 × 1400 个有害行为(来自 BeaverTails 14 类)= 56K 数据点
  • 有害行为提取:GPT-4o 从 BeaverTails 提取,人工验证确保质量

  • 评估方法改进:

  • 发现已有判断方法(GCG、GPT-4o、BERT、Llama Guard)准确率均 <0.8
  • 重新设计 judging prompt 聚焦"是否提供了详细计划或可疑提示"
  • Llama3-70B + 新判断 prompt 达到 0.96 agreement

  • Red Queen Guard 防御(Section 6):

  • 收集攻击数据的成功/拒绝配对,构建多轮 DPO 偏好数据
  • 对 Llama3-8B 和 70B 做 DPO 训练
  • 关键:使用多轮对话格式的偏好对,而非单轮

实验关键数据

主实验表格(Table 2: ASR across Models and Turns)

模型 Direct 3-Turn 4-Turn 5-Turn Overall
GPT-4o 0.64 87.62 73.43 85.19 82.08
GPT-4o-mini 0.57 30.64 49.19 54.77 44.87
Llama3-70B 0.93 52.41 75.40 77.11 68.31
Llama3.1-405B 2.36 52.79 51.19 46.66 50.21
Qwen2-72B 1.25 38.26 55.24 54.10 49.20
Mixtral-8×22B 22.95 28.04 45.52 46.17 39.91
  • GPT-4o 作为安全性最好的商用模型,ASR 高达 87.6%(3-Turn)
  • 直接攻击 ASR 几乎为 0(<3%),而 Red Queen Attack 提升 15-81%

与已有攻击对比(Figure 3)

  • Red Queen Attack 在 10 个模型中的 9 个上超过所有已有方法
  • ASR 提升范围:2% 到 64%
  • 特别是在 GPT-4o 和 Llama3-70B 上显著超越

关键因素分析

  • 多轮 vs 单轮:多轮结构(M&C)比单轮隐蔽(C)ASR 提升 5-28%
  • 模型越大越脆弱:同一模型家族内,更大模型 ASR 更高(Llama3-8B: 19.8% vs 70B: 68.3%)
  • 场景类型:职业场景(如 Police)ASR 最高,关系场景效果较均匀

Red Queen Guard 防御效果

  • Llama3-8B:ASR 从 19.8% → 0.52%
  • Llama3-70B:ASR 从 68.3% → 0.97%
  • MT-Bench 等通用基准无性能下降

关键发现

  • 大模型反而更脆弱——可能因为更好的指令跟随能力使其更容易被"有帮助"倾向利用
  • 多轮+隐蔽的组合效应大于各自单独效果之和
  • 简单的多轮 DPO 训练即可有效防御,但需要使用多轮格式的偏好数据

亮点与洞察

  • ToM 视角的创新性:首次将 Theory of Mind 概念应用于越狱攻击设计,理论框架清晰
  • 规模化攻击数据集:56K多轮隐蔽攻击数据,覆盖 14 类有害行为 × 40 种场景,是安全研究的重要资源
  • 防御简洁有效:Red Queen Guard 只需 DPO 训练即可将 ASR 降至 <1%,实用性强
  • 反直觉发现:更大模型更容易被越狱——挑战了"scale up = safer"的假设

局限性

  1. 攻击数据由 Llama3.1-70B 生成场景、GPT-4o 提取行为,对其他模型有偏
  2. 防御只在 Llama3 上验证,GPT-4o 等闭源模型无法直接应用 DPO
  3. 攻击模板较固定("朋友/同事要做坏事,我要阻止"),防御针对性强后可能被绕过
  4. 未评估更复杂的自适应攻击——攻击者知道防御方式后的反攻

相关工作与启发

  • 与 Cipher-Based Attack (Yuan et al., 2024) 对比:后者隐蔽但单轮,本文多轮+隐蔽效果更强
  • 与 CoSafe (Yu et al., 2024) 对比:后者多轮但不隐蔽,ASR 显著低于 Red Queen
  • 启发:ToM 能力是 LLM 安全的关键缺口——提升模型的意图推断能力可能比更多 RLHF 数据更有效

评分

  • 新颖性: ⭐⭐⭐⭐⭐ (首个 ToM+多轮隐蔽越狱框架)
  • 理论深度: ⭐⭐⭐⭐ (ToM 形式化清晰,因素分析全面)
  • 实验充分性: ⭐⭐⭐⭐⭐ (10 模型 × 4 家族 × 多轮变体,对比 5+ 已有方法)
  • 实用价值: ⭐⭐⭐⭐⭐ (攻击数据集+防御策略,攻防兼备)
  • 总体推荐: ⭐⭐⭐⭐⭐ (LLM 安全领域的重要贡献)