跳转至

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks (DialTree)

会议: ICLR 2026
arXiv: 2510.02286
代码: 无
领域: AI安全 / 红队攻击
关键词: 多轮越狱, 红队测试, 强化学习, 树搜索, 对话策略优化

一句话总结

提出 DialTree,将多轮红队攻击建模为目标导向的对话策略优化问题,通过树状rollout+质量剪枝探索攻击轨迹空间,结合自适应mask防止格式遗忘,在12个目标模型上平均ASR达81.5%,比此前SOTA高44.2%,甚至在Claude-4-Sonnet上达71% ASR。

研究背景与动机

  1. 领域现状:红队测试是发现LLM安全漏洞的关键手段。现有方法分为单轮攻击(GCG/PAIR/TAP)和多轮攻击(MTSA/ActorAttack/X-Teaming)。研究表明多轮攻击远比单轮有效,因为可以逐步侵蚀安全边界。
  2. 现有痛点
  3. 现有多轮方法依赖手工启发式或模板,无法学习长期自适应策略
  4. 多轮对话的状态空间指数增长,标准RL方法难以有效探索
  5. 越狱奖励来自不完美的代理模型(非可验证奖励),引导信号不稳定
  6. RL训练中格式遵循能力会灾难性遗忘
  7. 核心矛盾:多轮攻击的对话空间巨大,但有效攻击策略稀疏、难以发现
  8. 本文要解决什么? 如何高效探索多轮攻击空间+学习长期对话策略+稳定RL训练
  9. 切入角度:将红队攻击建模为目标导向的战略对话,用树搜索结构化探索+自适应mask稳定训练
  10. 核心idea一句话:树状rollout+剪枝 = 结构化探索多轮攻击空间;自适应mask = 保护格式token不被RL反向遗忘

方法详解

整体框架

攻击目标 \(g\) → 攻击模型 \(\pi_\theta\) 生成CoT推理+攻击query → 目标模型 \(\pi_{\text{tgt}}\) 回复 → 评估是否越狱 → 下一轮。训练分两阶段:(1) Cold-Start SFT初始化格式和基本攻击能力;(2) DialTree RL通过树搜索+GRPO优化攻击策略。

关键设计

  1. 对话树Rollout + 质量剪枝:
  2. 做什么:在每个对话状态扩展 \(n\) 个候选行动分支,形成树结构探索攻击空间
  3. 核心思路:从初始目标 \(s_0 = (g, \emptyset)\) 出发,每轮对每个活跃状态采样 \(n\) 个不同的(CoT, 查询)对。每个查询发送给目标模型获取回复,形成新状态。三种剪枝:格式验证(丢弃无CoT或无query的)、主题一致性(丢弃偏离目标的)、分支限制(每轮最多保留 \(w\) 个节点)
  4. 设计动机:标准GRPO只采样独立轨迹,无法在共享对话上下文下对比不同行动的效果;树结构允许从相同状态出发探索多个方向
  5. 默认参数:\(T_{\max}=5\) 轮, 分支因子 \(n=4\), 组大小 \(G=32\)

  6. 自适应Mask机制:

  7. 做什么:在RL训练中选择性保护格式token不被梯度更新破坏
  8. 核心思路:定义自适应mask \(M_t^{(i)} = 1 - \mathbb{I}((T_t^{(i)} \in \mathcal{V}_{\text{fmt}}) \land (A^{(i)} < 0))\)。当轨迹优势 \(A < 0\) 时,mask掉格式token使其不受惩罚梯度影响;当 \(A \geq 0\) 时,格式token正常更新以强化正确格式
  9. 设计动机:发现RL训练中格式遵循能力会灾难性遗忘——畸形输出从近0%飙升至>70%。原因是负优势轨迹的梯度惩罚会连带惩罚正确的格式token
  10. vs 静态mask:静态mask总是保护格式token,但效果不如自适应——因为正优势中也需要更新格式token来强化

  11. 红队奖励设计:

  12. 做什么:用安全护栏模型HarmAug-Guard评估每条轨迹是否成功越狱
  13. 核心思路:\(R = 1\) 如果对话中任一轮的(query, response)被判为有害(\(r_\phi(g; q_t, r_t) > 0.5\)),否则 \(R = 0\)。二值奖励简单但有效
  14. 评估用GPT-4o做held-out judge,与训练时的HarmAug-Guard不同,避免reward hacking

损失函数 / 训练策略

  • SFT阶段:397条手工策划的红队对话数据+CoT
  • RL阶段:Dialogue GRPO,在树rollout收集的轨迹上计算组相对优势。500个训练目标,从AdvBench/DangerousQA/CatQA采样
  • 攻击模型:Llama-3.1-8B-Instruct,目标模型(训练时):Llama-3.2-1B-Instruct
  • 关键:训练目标仅1B小模型,但攻击策略可转移到GPT-4o/Claude-4等大模型

实验关键数据

主实验:攻击成功率(ASR@1, HarmBench)

方法 GPT-4o Claude-4-Sonnet Grok-4 o3-mini Llama-3.3-70B Avg(12模型)
GCG 12.5 0 1.0 0 8.5 12.4
PAIR 18.0 2.5 8.5 11.5 25.5 17.6
X-Teaming 48.0 9.5 10.5 19.0 50.0 37.3
DialTree 86.0 71.0 75.0 86.5 89.5 81.5

消融实验:自适应Mask效果

Mask策略 训练稳定性 畸形轨迹率(40步) 奖励趋势
无Mask 训练崩溃 ~100% 趋近0
静态Mask 部分缓解 ~100%(60步后) 缓慢下降
自适应Mask 稳定 <50% 稳步上升

关键发现

  • 跨模型转移能力惊人:仅在1B模型上训练,对Claude-4-Sonnet(被认为最安全的模型)达71% ASR,远超其他方法最高26%
  • 树搜索贡献大:相比无树搜索的标准rollout,树搜索带来显著ASR提升
  • 自适应Mask关键:无mask时训练在40步内崩溃;自适应mask是唯一能维持训练稳定的方案
  • 数据效率高:SFT仅397条数据+RL仅500个目标即可训练出强大攻击者
  • 多轮远优于单轮:多轮攻击平均ASR 81.5% vs 单轮最佳33.8%

亮点与洞察

  • 红队攻击 ≈ 战略对话博弈:将越狱重新建模为目标导向的对话决策问题,而非简单的prompt优化。这个视角允许长期策略规划
  • 格式遗忘现象的发现与解决:RL训练中格式能力灾难性遗忘是一个普遍但被忽视的问题。自适应mask指出了原因(负优势梯度误伤格式token)并提出了优雅解决方案。这个方法可迁移到任何需要保持特定输出格式的RL训练场景
  • 小模型训练→大模型转移:训练时用1B目标模型,推理时攻击GPT-4o/Claude级模型仍有效。说明攻击策略在模型间有很强的迁移性——这对防御者是一个严肃警告

局限性 / 可改进方向

  • 防御视角缺失:论文只做攻击,未探讨基于DialTree发现的漏洞如何改进防御
  • 奖励模型可靠性:HarmAug-Guard作为proxy reward可能有盲区,导致reward hacking
  • 计算开销:树搜索+多轮交互的rollout成本较高
  • 改进思路:可结合ReSA的Answer-Then-Check防御策略,测试DialTree在面对"推理增强型防御"时的效果

相关工作与启发

  • vs X-Teaming:X-Teaming用多agent协作规划多轮攻击(37.3% ASR),DialTree用单agent+树搜索RL(81.5% ASR),说明策略学习比启发式规划更有效
  • vs PAIR/TAP:这些是迭代优化单轮prompt的方法,DialTree将其推广到多轮对话策略空间,效果飞跃式提升
  • vs ActorAttack:ActorAttack用语义相关实体逐步引导,DialTree直接学习对话策略,更灵活且效果更好

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 树搜索RL+自适应mask的框架设计新颖,格式遗忘的发现有独立价值
  • 实验充分度: ⭐⭐⭐⭐⭐ 12个目标模型(含GPT-4o/Claude-4/Grok-4),8个baseline,消融详尽
  • 写作质量: ⭐⭐⭐⭐ 问题建模清晰,但部分公式可以更简化
  • 价值: ⭐⭐⭐⭐⭐ 对理解LLM多轮安全漏洞和改进防御有重要意义