跳转至

Fixing the Broken Compass: Diagnosing and Improving Inference-Time Reward Modeling

会议: ICLR2026
arXiv: 2503.05188
代码: GitHub
领域: llm_reasoning
关键词: 推理时奖励模型, 推理时扩展, BoN, MCTS, 聚类奖励聚合

一句话总结

系统诊断推理时奖励模型(RM)的三大问题(简单题性能下降、采样增多判别力衰退、高搜索多样性损害),提出CRISP算法通过答案聚类聚合奖励信号+逐步前缀引导生成,比其他RM推理方法提升最高5%准确率,比R1模型在非数学任务上平均提升10%且token量减少90%。

背景与动机

  1. 推理时scaling技术分训练时(RL/SFT)和推理时(RM搜索)两条路线,后者被严重忽视
  2. R1系列模型存在过度思考(overthinking)和任务泛化有限的问题
  3. 当前高级RM在下游数学推理任务上BoN相比SC提升有限(<5%)
  4. Oracle(召回已有正确答案)远超BoN,说明瓶颈在RM判别能力而非LLM生成能力
  5. RM训练数据为受限的正负对,对低频分布外响应泛化差
  6. 推理时搜索的多样性控制与RM性能之间的关系未被系统研究

方法详解

三大诊断发现: - Cl.1:RM在简单题上反而损害性能——BoN/MCTS在低难度题上准确率低于SC - Cl.2:RM随采样数增加判别力下降——存在"逆长尾现象",RM倾向给低频错误答案高分 - Cl.3:过高搜索多样性损害RM性能——温度过高/MCTS树过宽过深均导致准确率下降

CRISP算法(5个模块迭代执行): 1. 路径生成:基于前缀集\(\mathcal{P}\)生成完整推理路径(非逐步展开),控制多样性(Cl.3) 2. 状态聚合:按最终答案聚类,相同答案的路径归入同一cluster 3. 奖励评估:将路径级RM分数聚合为cluster级分数\(\mathcal{F}(\mathcal{C}_j) = \sum_{x \in \mathcal{C}_j} f(x)\),抑制低频错误(Cl.2) 4. 早停机制:cluster数<2时直接返回多数投票答案,避免RM在简单题上的损害(Cl.1) 5. 前缀提取:从最高分cluster中选最高分路径,提取前i步作为下轮前缀引导

实验关键数据

方法 Qwen2.5-3B MATH Qwen2.5-3B Olympiad Llama3.1-8B MATH Llama3.1-8B Olympiad
Self-Consistency 0.64 0.31 0.57 0.16
MCTS+PRM 0.71 0.31 0.57 0.19
CRISP+PRM 0.76 0.39 0.67 0.26
  • 与R1模型对比:非数学任务平均准确率提升10%(Qwen)和5%(Llama)
  • token消耗较R1减少高达90%
  • 在常识/社会/逻辑推理上泛化能力更强

亮点

  • 系统性的RM诊断分析,三个发现互相关联且有实验验证
  • CRISP的每个模块针对性解决一个诊断发现,逻辑闭环
  • 答案聚类奖励聚合思路简洁有效,抑制RM对低频错误的过度偏好
  • 推理时优化vs训练时优化的对比视角有新意,展示了两者的互补性

局限性 / 可改进方向

  • 主要在数学推理任务验证,代码生成等任务缺乏评估
  • 假设答案可以被提取和聚类,对开放式生成任务适用性有限
  • 前缀提取策略(取前i步)较粗糙,可能丢失关键分支信息
  • 早停阈值(cluster数<2)为硬编码,缺乏自适应机制
  • 未与更先进的RM(如generative RM)对比

与相关工作的对比

  • 相比BoN/BoN Weighted,CRISP通过聚类聚合解决了低频错误的问题
  • 相比MCTS,CRISP生成完整路径而非逐步展开,控制搜索多样性
  • 相比R1系列训练时方法,CRISP在非数学任务上更强且更高效
  • Snell等(2024)的Beam Search是最接近的baseline,CRISP在多数设置上超越

评分

  • 新颖性: ⭐⭐⭐⭐ (诊断驱动的方法设计,发现有洞察力)
  • 实验充分度: ⭐⭐⭐⭐ (多模型/多数据集/消融/与R1对比)
  • 写作质量: ⭐⭐⭐⭐⭐ (问题→诊断→方案逻辑极清晰)
  • 价值: ⭐⭐⭐⭐ (推理时RM优化方向有实际应用价值)