Dynamic and Generalizable Process Reward Modeling¶

会议: ACL 2025
arXiv: 2507.17849
代码: 无
领域: LLM Reasoning
关键词: 过程奖励模型, 动态评估标准, 奖励树, Pareto优化, 跨领域泛化

一句话总结¶

DG-PRM 提出了一种动态可泛化的过程奖励建模框架，通过奖励树存储多维度评估标准并动态选择步骤相关的奖励信号，用 Pareto 支配估计处理多面奖励，在 PRMBench 上达到 SOTA 且具有优异的跨领域泛化能力。

训练数据中的正负对 → LLM Judge 分析差异提取评估标准 → 层次聚类构建奖励树 \(\mathcal{T}\) → 对每个推理步骤动态从树中选择相关标准 → 多维度评分 → Pareto 支配估计选择正负训练对 → 训练 PRM。

奖励树 (Reward Tree):
做什么：存储从 LLM 比较判断中自动提取的多粒度评估标准
核心思路：用 LLM Judge 分析正负对差异提取标准 \(R_{raw}\)，过滤后嵌入向量空间，层次聚类形成粗粒度父节点+细粒度子节点的树结构
设计动机：评估标准不应固定——不同步骤/任务需要不同的评价维度
动态奖励分配 (Dynamic Allocation):
做什么：为每个推理步骤动态选择最相关的评估标准
核心思路：结合当前步骤内容和前 \(\mu\) 步上下文，LLM 选择适用的父标准，分析是否需要细粒度评估，通过余弦相似度匹配子节点标准，最终对每个选中标准打分
设计动机：不同步骤（如公式推导 vs 文字表达）需要不同维度的评估
Pareto 支配估计 (Pareto Dominance Estimation):
做什么：从多维度评分中选择有区分度的正负训练对
核心思路：每个步骤有多个维度的分数向量，如果一个步骤在所有维度上都优于另一个则构成 Pareto 支配关系，用此选择正负对训练 PRM
设计动机：传统方法用总分排序选正负对，忽略了多维度之间可能的冲突

使用标准的 PRM 训练方式，但正负对由 Pareto 支配关系选择而非简单分数排名。