跳转至

Dynamic and Generalizable Process Reward Modeling

会议: ACL 2025
arXiv: 2507.17849
代码: 无
领域: LLM Reasoning
关键词: 过程奖励模型, 动态评估标准, 奖励树, Pareto优化, 跨领域泛化

一句话总结

DG-PRM 提出了一种动态可泛化的过程奖励建模框架,通过奖励树存储多维度评估标准并动态选择步骤相关的奖励信号,用 Pareto 支配估计处理多面奖励,在 PRMBench 上达到 SOTA 且具有优异的跨领域泛化能力。

研究背景与动机

  1. 领域现状:过程奖励模型(PRM)通过为推理中间步骤提供密集奖励信号来指导 LLM
  2. 现有痛点
  3. 启发式 PRM 依赖固定标准(如答案正确/错误),跨领域泛化差
  4. LLM-as-Judge 方法只利用最终反馈(正确/错误),忽略了反馈文本中丰富的细节(错误类型、严重程度等)
  5. 统一的负奖励无法区分错误的多样性和严重程度
  6. 核心矛盾:固定评估标准无法适应不同任务和领域,统一负奖励丢失了丰富的错误信息
  7. 本文要解决什么:自动构建动态评估标准 + 精确分配过程奖励
  8. 切入角度:从 LLM 的比较判断中提取评估标准,组织成层次化奖励树
  9. 核心idea一句话:用奖励树存储从LLM反馈中提取的多粒度评估标准,动态选择与每步相关的标准进行评分

方法详解

整体框架

训练数据中的正负对 → LLM Judge 分析差异提取评估标准 → 层次聚类构建奖励树 \(\mathcal{T}\) → 对每个推理步骤动态从树中选择相关标准 → 多维度评分 → Pareto 支配估计选择正负训练对 → 训练 PRM。

关键设计

  1. 奖励树 (Reward Tree):
  2. 做什么:存储从 LLM 比较判断中自动提取的多粒度评估标准
  3. 核心思路:用 LLM Judge 分析正负对差异提取标准 \(R_{raw}\),过滤后嵌入向量空间,层次聚类形成粗粒度父节点+细粒度子节点的树结构
  4. 设计动机:评估标准不应固定——不同步骤/任务需要不同的评价维度

  5. 动态奖励分配 (Dynamic Allocation):

  6. 做什么:为每个推理步骤动态选择最相关的评估标准
  7. 核心思路:结合当前步骤内容和前 \(\mu\) 步上下文,LLM 选择适用的父标准,分析是否需要细粒度评估,通过余弦相似度匹配子节点标准,最终对每个选中标准打分
  8. 设计动机:不同步骤(如公式推导 vs 文字表达)需要不同维度的评估

  9. Pareto 支配估计 (Pareto Dominance Estimation):

  10. 做什么:从多维度评分中选择有区分度的正负训练对
  11. 核心思路:每个步骤有多个维度的分数向量,如果一个步骤在所有维度上都优于另一个则构成 Pareto 支配关系,用此选择正负对训练 PRM
  12. 设计动机:传统方法用总分排序选正负对,忽略了多维度之间可能的冲突

损失函数 / 训练策略

使用标准的 PRM 训练方式,但正负对由 Pareto 支配关系选择而非简单分数排名。

实验关键数据

主实验

方法 PRMBench 跨领域泛化
Math-Shepherd 基线 泛化差
LLM-as-Judge 中等 较好
DG-PRM SOTA 最佳泛化

关键发现

  • DG-PRM 在 PRMBench 上显著超越现有 PRM 方法
  • 奖励树使标准可复用——训练集上提取的标准在 OOD 场景仍然有效
  • Pareto 支配选择的正负对比简单分数排序更有区分度
  • 动态标准选择比固定标准在复杂多步推理中优势更大

亮点与洞察

  • 奖励树的设想很有前瞻性——评估标准可以随着使用不断积累和细化,像知识库一样增长
  • 将 LLM 反馈中的丰富文本信息结构化为可检索的评估标准,比只取"正确/错误"标签信息利用率高得多
  • Pareto 支配在多目标奖励场景中是比简单加权更合理的选择策略

局限性 / 可改进方向

  • 奖励树的构建依赖强 LLM(如 GPT-4)做 Judge,成本较高
  • 动态标准选择的 LLM 调用次数多,推理效率可能是瓶颈
  • 奖励树质量依赖训练数据中正负对的多样性

相关工作与启发

  • vs Math-Shepherd: Math-Shepherd 用启发式方法标注过程奖励,DG-PRM 自动从 LLM 反馈提取动态标准
  • vs GenRM: GenRM 用 LLM 生成反馈但只取最终判断,DG-PRM 深度利用反馈中的多维信息

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 奖励树+动态分配+Pareto优化的组合非常新颖
  • 实验充分度: ⭐⭐⭐⭐ PRMBench+多任务+OOD泛化分析
  • 写作质量: ⭐⭐⭐⭐ 方法描述详细,公式化程度高
  • 价值: ⭐⭐⭐⭐⭐ 为PRM领域提供了全新的动态评估范式