跳转至

TreeRL: LLM Reinforcement Learning with On-Policy Tree Search

会议: ACL 2025
arXiv: 2506.11902
代码: https://github.com/THUDM/TreeRL
领域: LLM推理
关键词: 树搜索, 强化学习, 过程监督, 熵引导分叉, LLM推理

一句话总结

提出 TreeRL,将基于熵引导的树搜索(EPTree)直接集成到 LLM 的 on-policy 强化学习训练中,通过在高不确定性 token 处分叉来扩展推理路径多样性,并利用树结构提供的全局+局部优势作为过程监督信号,在数学和代码推理任务上超过传统的多链采样 RL。

研究背景与动机

  1. 领域现状:当前 LLM 推理能力的强化学习(RL)方法主要采用独立多链采样(i.i.d multi-chain sampling),对每个 prompt 独立生成 K 个完整回答,基于最终答案的正确性进行奖励反馈和策略更新(如 GRPO、RLOO)。
  2. 现有痛点
  3. 独立多链采样生成的回答多样性有限,难以充分探索推理空间
  4. outcome-level 的奖励信号太稀疏,只在回答末尾给一次反馈,中间步骤缺乏梯度信号
  5. 虽然有 Process Reward Model (PRM) 提供中间步骤监督,但离线训练的 PRM 面临分布偏移和 reward hacking 问题
  6. 核心矛盾:树搜索在 AlphaZero 等传统领域已被验证有效,但在 LLM RL 中仍未被充分利用。现有尝试要么只在推理阶段使用树搜索提升表现,要么用树搜索生成离线训练数据(SFT/DPO),而非直接在 on-policy RL 训练中使用。经典 MCTS 逐步生成的方式需要大量迭代,对 VLLM 等现代推理引擎不友好,效率低下。
  7. 本文要解决什么?
  8. 如何设计一种高效的树搜索算法,在相同推理预算下比多链采样和 MCTS 产生更多样的正确回答
  9. 如何将树搜索的结构信息转化为可靠的 on-policy 过程监督信号用于 RL 训练
  10. 切入角度:模型在生成过程中某些 token 的预测熵(不确定性)特别高——这些位置是推理路径分叉的关键点。在这些高不确定性的 token 处分叉生成新分支,既高效又能最大化探索的多样性。
  11. 核心 idea 一句话:用 token 级别的熵来引导树搜索分叉,配合树结构推导的 on-policy 过程监督奖励,直接将树搜索集成到 LLM 强化学习训练中。

方法详解

整体框架

TreeRL 的 pipeline:给定 prompt → 用 EPTree 生成推理树(包含多个分支和叶节点)→ 对每个叶节点验证答案正确性 → 基于树结构计算每个中间步骤的过程监督信号 → 用 policy gradient 更新策略模型。整个过程是 on-policy 的:每轮 RL 迭代都重新生成树,奖励信号直接来自当前策略的生成结果。

关键设计

  1. EPTree (Entropy-guided Parallel Tree search):
  2. 做什么:一种高效并行的树搜索算法,在相同推理预算下生成比 MCTS 和多链采样更多样的回答
  3. 核心思路:
    • 初始化:并行生成 \(M\) 个独立链作为初始树
    • 分叉点选择:计算每个 token 的交叉熵 \(H(\mathbf{y}_t) = -\log \pi_\theta(\mathbf{y}_t | \mathbf{x}, \mathbf{y}_{<t})\),在整棵树中选择熵最高的 top-\(N\) 个 token 作为分叉点(同时 mask 掉接近序列末尾的 token)
    • 扩展:从每个分叉点的前缀继续生成 \(T\) 个新分支直到完成
    • 重复分叉和扩展 \(L\) 次,最终得到 \(M \times (T \times N \times L + 1)\) 个叶节点
  4. 设计动机:MCTS 需要逐步展开非常多的迭代,效率低;EPTree 只需约 2 轮迭代就能构建多样化的搜索树。高熵 token 是模型最"纠结"的位置(如数学运算符、逻辑连词、"wait" 等自我反思词),从这些位置分叉能最大化路径多样性
  5. 关键参数记为 \((M, N, L, T)\)-tree,例如 \((6,2,1,2)\) 表示 6 棵并行树,每轮选 2 个分叉点,1 轮迭代,每个分叉点扩展 2 个分支

  6. On-policy 过程监督信号:

  7. 做什么:利用树结构为每个中间推理步骤计算奖励信号
  8. 核心思路:
    • 每个节点 \(s_n\)value:其所有叶子后代中正确答案的比例 \(V(s_n) = \frac{1}{|L(s_n)|} \sum_{l \in L(s_n)} \mathbf{1}(l \text{ correct})\)
    • 全局优势 (Global Advantage)\(G_A(s_n) = V(s_n) - V(\text{root})\),衡量该步骤相对于整体平均正确率的优势
    • 局部优势 (Local Advantage)\(L_A(s_n) = V(s_n) - V(p(s_n))\),衡量该步骤相对于父节点的改进
    • 最终奖励:\(R(s_n) = (G_A(s_n) + L_A(s_n)) / \sqrt{|L(s_n)|}\)
  9. 设计动机:全局优势提供对步骤质量的宏观评估,局部优势捕捉每一步的边际贡献。除以 \(\sqrt{|L(s_n)|}\) 是因为共享前缀的非叶节点会在多条序列中重复出现,需要降权防止过拟合。这种设计可以看作 GAE (Generalized Advantage Estimation) 的特殊形式
  10. 与 PRM 的关键区别:完全 on-policy,不需要额外训练 reward model,天然抗 reward hacking

  11. 树到序列的训练:

  12. 做什么:将树结构展开为多条序列用于 RL 训练
  13. 核心思路:每个叶节点对应一条从根到叶的完整序列,树中共有 \(M \times (N \times L \times T + 1)\) 条序列。每条序列中每个 token 都带有对应步骤的过程奖励 \(R(s_n)\),用 policy gradient 更新
  14. 设计动机:相比多链采样 16 条独立链,TreeRL 的 \((6,2,1,2)\) 配置在相同推理预算下产生约 30 条序列,提供更多训练数据(虽然训练计算量更大)

损失函数 / 训练策略

  • 使用标准 policy gradient,KL 系数 \(\beta = 10^{-4}\),学习率 \(1.5 \times 10^{-6}\)
  • 采样温度 1.2,top-p = 0.95,最大序列长度 8192
  • 规则型奖励:答案正确 +1,错误 0
  • 训练数据来自 MATH-train 和 NuminaMath

实验关键数据

主实验

模型 MATH500 Omni-MATH-500 AIME2024 AMC OlympiadBench LiveCodeBench Avg
Qwen-2.5-14B SFT 76.6 29.5 10.6 48.0 36.9 14.5 36.0
ChainRL (Qwen-14B) 81.6 32.7 22.2 53.9 41.1 18.2 41.6
TreeRL (Qwen-14B) 81.7 36.7 28.0 55.9 44.6 20.8 44.5
R1-Distilled-7B SFT 94.0 47.8 55.9 85.5 54.4 43.9 63.6
ChainRL (R1-7B) 93.6 48.1 59.7 85.5 54.5 46.1 64.5
TreeRL (R1-7B) 94.4 49.8 60.8 85.0 57.1 47.4 65.8

TreeRL 在 Qwen-14B 上平均比 ChainRL 高 2.9%,在 R1-Distilled-7B 上高 1.3%。

消融实验

过程奖励设计 #Response MATH500 Omni-MATH AIME2024 Avg Gain
\((G_A + L_A)/\sqrt{n}\)(完整) 30 81.7 36.7 28.0
\(G_A + L_A\)(无降权) 30 81.5 32.0 24.1 -1.9 ↓
\(G_A/\sqrt{n}\)(无局部优势) 30 80.1 35.1 24.7 -1.3 ↓
\((G_A + L_A)/\sqrt{n}\)(16条) 16 80.1 32.5 24.5 -3.2 ↓
分叉策略 (M,N,L,T) 熵引导 PassRate ↑ Token数 ↓
(6,2,1,2) EPTree 56.9 22268
(6,2,1,2) 随机分叉 54.8 24213
(16,0,0,0) 多链采样 - 52.4 19858

关键发现

  • EPTree 在相同推理预算下 PassRate 持续优于多链采样约 3%,同时生成约 2 倍多样的不同回答
  • 过程监督三要素缺一不可:去掉降权因子(\(1/\sqrt{n}\))掉 1.9%、去掉局部优势掉 1.3%、减少训练序列数掉 3.2%
  • 熵引导分叉比随机分叉在更少 token 下取得更高 PassRate(56.9 vs 54.8),说明高熵位置确实是关键分叉点
  • 高频分叉 token 包括数学运算符 (、逻辑连词、转折词 "Since"/"But" 以及自我反思词 "wait",符合直觉
  • TreeRL 在训练约 100 步后开始优于 ChainRL 并持续拉大差距

亮点与洞察

  • 熵引导分叉是最巧妙的设计:避免了 MCTS 逐步展开的低效问题,只需 2 轮迭代建树。利用 token 熵找到模型最"纠结"的位置进行分叉,既高效又有针对性,是一种很自然的不确定性引导探索策略
  • on-policy 过程监督无需训练 PRM:直接从树结构的正确率统计推导出梯度信号,避免了离线 PRM 的分布偏移问题。这种方法可以迁移到任何有 outcome reward 的 RL 场景
  • 全局+局部优势的组合可视为 GAE 的特殊形式,提供了理论基础,且 \(1/\sqrt{n}\) 降权是一个值得关注的技术细节——共享前缀在多条序列中重复出现的过拟合问题是树结构 RL 的独有挑战

局限性 / 可改进方向

  • 当前推理引擎(如 VLLM)未对树搜索做特殊优化,EPTree 仍需 2+ 轮迭代,实际速度约为多链采样的 1/2
  • 实验仅在数学和代码推理上验证,未扩展到 NLP 生成、对话等任务
  • \((G_A + L_A)/\sqrt{n}\) 的奖励设计较为启发式,步骤重要性权重 \(\lambda_j\) 的最优分配尚未充分探索
  • R1-Distilled 模型上 RL 增益较小,可能因为训练数据对该模型太简单——训练数据难度匹配是 RL 的关键问题
  • 可以探索将 EPTree 与 MCTS 的 UCB 策略结合,或与 reward model 联合使用

相关工作与启发

  • vs MCTS:MCTS 需要 value network 和大量迭代展开,在 LLM 场景效率低;EPTree 用熵替代 UCB 选择分叉点,2 轮迭代即可,更适合 GPU 并行
  • vs GRPO/RLOO:传统 RL 用 outcome reward 做多链采样后更新,信号稀疏;TreeRL 提供步骤级 on-policy 信号,信息密度更高
  • vs AlphaMath Zero:AlphaMath 用 MCTS 生成数据做离线训练(SFT/DPO),面临分布偏移;TreeRL 直接 on-policy 训练,信号更可靠

评分

  • 新颖性: ⭐⭐⭐⭐ 树搜索+RL 的 idea 很多人提过,但 EPTree 的熵引导分叉和 on-policy 过程监督的具体设计有创新
  • 实验充分度: ⭐⭐⭐⭐ 多个基准、多个基座模型、详细的消融,但缺少非推理任务验证
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,图表丰富,算法描述规范
  • 价值: ⭐⭐⭐⭐ 为 LLM RL 训练提供了一种实用的树搜索方案,开源代码降低了复现门槛