Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks (DialTree)¶
会议: ICLR 2026
arXiv: 2510.02286
代码: 无
领域: AI安全 / 红队攻击
关键词: 多轮越狱, 红队测试, 强化学习, 树搜索, 对话策略优化
一句话总结¶
提出 DialTree,将多轮红队攻击建模为目标导向的对话策略优化问题,通过树状rollout+质量剪枝探索攻击轨迹空间,结合自适应mask防止格式遗忘,在12个目标模型上平均ASR达81.5%,比此前SOTA高44.2%,甚至在Claude-4-Sonnet上达71% ASR。
研究背景与动机¶
- 领域现状:红队测试是发现LLM安全漏洞的关键手段。现有方法分为单轮攻击(GCG/PAIR/TAP)和多轮攻击(MTSA/ActorAttack/X-Teaming)。研究表明多轮攻击远比单轮有效,因为可以逐步侵蚀安全边界。
- 现有痛点:
- 现有多轮方法依赖手工启发式或模板,无法学习长期自适应策略
- 多轮对话的状态空间指数增长,标准RL方法难以有效探索
- 越狱奖励来自不完美的代理模型(非可验证奖励),引导信号不稳定
- RL训练中格式遵循能力会灾难性遗忘
- 核心矛盾:多轮攻击的对话空间巨大,但有效攻击策略稀疏、难以发现
- 本文要解决什么? 如何高效探索多轮攻击空间+学习长期对话策略+稳定RL训练
- 切入角度:将红队攻击建模为目标导向的战略对话,用树搜索结构化探索+自适应mask稳定训练
- 核心idea一句话:树状rollout+剪枝 = 结构化探索多轮攻击空间;自适应mask = 保护格式token不被RL反向遗忘
方法详解¶
整体框架¶
攻击目标 \(g\) → 攻击模型 \(\pi_\theta\) 生成CoT推理+攻击query → 目标模型 \(\pi_{\text{tgt}}\) 回复 → 评估是否越狱 → 下一轮。训练分两阶段:(1) Cold-Start SFT初始化格式和基本攻击能力;(2) DialTree RL通过树搜索+GRPO优化攻击策略。
关键设计¶
- 对话树Rollout + 质量剪枝:
- 做什么:在每个对话状态扩展 \(n\) 个候选行动分支,形成树结构探索攻击空间
- 核心思路:从初始目标 \(s_0 = (g, \emptyset)\) 出发,每轮对每个活跃状态采样 \(n\) 个不同的(CoT, 查询)对。每个查询发送给目标模型获取回复,形成新状态。三种剪枝:格式验证(丢弃无CoT或无query的)、主题一致性(丢弃偏离目标的)、分支限制(每轮最多保留 \(w\) 个节点)
- 设计动机:标准GRPO只采样独立轨迹,无法在共享对话上下文下对比不同行动的效果;树结构允许从相同状态出发探索多个方向
-
默认参数:\(T_{\max}=5\) 轮, 分支因子 \(n=4\), 组大小 \(G=32\)
-
自适应Mask机制:
- 做什么:在RL训练中选择性保护格式token不被梯度更新破坏
- 核心思路:定义自适应mask \(M_t^{(i)} = 1 - \mathbb{I}((T_t^{(i)} \in \mathcal{V}_{\text{fmt}}) \land (A^{(i)} < 0))\)。当轨迹优势 \(A < 0\) 时,mask掉格式token使其不受惩罚梯度影响;当 \(A \geq 0\) 时,格式token正常更新以强化正确格式
- 设计动机:发现RL训练中格式遵循能力会灾难性遗忘——畸形输出从近0%飙升至>70%。原因是负优势轨迹的梯度惩罚会连带惩罚正确的格式token
-
vs 静态mask:静态mask总是保护格式token,但效果不如自适应——因为正优势中也需要更新格式token来强化
-
红队奖励设计:
- 做什么:用安全护栏模型HarmAug-Guard评估每条轨迹是否成功越狱
- 核心思路:\(R = 1\) 如果对话中任一轮的(query, response)被判为有害(\(r_\phi(g; q_t, r_t) > 0.5\)),否则 \(R = 0\)。二值奖励简单但有效
- 评估用GPT-4o做held-out judge,与训练时的HarmAug-Guard不同,避免reward hacking
损失函数 / 训练策略¶
- SFT阶段:397条手工策划的红队对话数据+CoT
- RL阶段:Dialogue GRPO,在树rollout收集的轨迹上计算组相对优势。500个训练目标,从AdvBench/DangerousQA/CatQA采样
- 攻击模型:Llama-3.1-8B-Instruct,目标模型(训练时):Llama-3.2-1B-Instruct
- 关键:训练目标仅1B小模型,但攻击策略可转移到GPT-4o/Claude-4等大模型
实验关键数据¶
主实验:攻击成功率(ASR@1, HarmBench)¶
| 方法 | GPT-4o | Claude-4-Sonnet | Grok-4 | o3-mini | Llama-3.3-70B | Avg(12模型) |
|---|---|---|---|---|---|---|
| GCG | 12.5 | 0 | 1.0 | 0 | 8.5 | 12.4 |
| PAIR | 18.0 | 2.5 | 8.5 | 11.5 | 25.5 | 17.6 |
| X-Teaming | 48.0 | 9.5 | 10.5 | 19.0 | 50.0 | 37.3 |
| DialTree | 86.0 | 71.0 | 75.0 | 86.5 | 89.5 | 81.5 |
消融实验:自适应Mask效果¶
| Mask策略 | 训练稳定性 | 畸形轨迹率(40步) | 奖励趋势 |
|---|---|---|---|
| 无Mask | 训练崩溃 | ~100% | 趋近0 |
| 静态Mask | 部分缓解 | ~100%(60步后) | 缓慢下降 |
| 自适应Mask | 稳定 | <50% | 稳步上升 |
关键发现¶
- 跨模型转移能力惊人:仅在1B模型上训练,对Claude-4-Sonnet(被认为最安全的模型)达71% ASR,远超其他方法最高26%
- 树搜索贡献大:相比无树搜索的标准rollout,树搜索带来显著ASR提升
- 自适应Mask关键:无mask时训练在40步内崩溃;自适应mask是唯一能维持训练稳定的方案
- 数据效率高:SFT仅397条数据+RL仅500个目标即可训练出强大攻击者
- 多轮远优于单轮:多轮攻击平均ASR 81.5% vs 单轮最佳33.8%
亮点与洞察¶
- 红队攻击 ≈ 战略对话博弈:将越狱重新建模为目标导向的对话决策问题,而非简单的prompt优化。这个视角允许长期策略规划
- 格式遗忘现象的发现与解决:RL训练中格式能力灾难性遗忘是一个普遍但被忽视的问题。自适应mask指出了原因(负优势梯度误伤格式token)并提出了优雅解决方案。这个方法可迁移到任何需要保持特定输出格式的RL训练场景
- 小模型训练→大模型转移:训练时用1B目标模型,推理时攻击GPT-4o/Claude级模型仍有效。说明攻击策略在模型间有很强的迁移性——这对防御者是一个严肃警告
局限性 / 可改进方向¶
- 防御视角缺失:论文只做攻击,未探讨基于DialTree发现的漏洞如何改进防御
- 奖励模型可靠性:HarmAug-Guard作为proxy reward可能有盲区,导致reward hacking
- 计算开销:树搜索+多轮交互的rollout成本较高
- 改进思路:可结合ReSA的Answer-Then-Check防御策略,测试DialTree在面对"推理增强型防御"时的效果
相关工作与启发¶
- vs X-Teaming:X-Teaming用多agent协作规划多轮攻击(37.3% ASR),DialTree用单agent+树搜索RL(81.5% ASR),说明策略学习比启发式规划更有效
- vs PAIR/TAP:这些是迭代优化单轮prompt的方法,DialTree将其推广到多轮对话策略空间,效果飞跃式提升
- vs ActorAttack:ActorAttack用语义相关实体逐步引导,DialTree直接学习对话策略,更灵活且效果更好
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 树搜索RL+自适应mask的框架设计新颖,格式遗忘的发现有独立价值
- 实验充分度: ⭐⭐⭐⭐⭐ 12个目标模型(含GPT-4o/Claude-4/Grok-4),8个baseline,消融详尽
- 写作质量: ⭐⭐⭐⭐ 问题建模清晰,但部分公式可以更简化
- 价值: ⭐⭐⭐⭐⭐ 对理解LLM多轮安全漏洞和改进防御有重要意义