Fixing the Broken Compass: Diagnosing and Improving Inference-Time Reward Modeling¶
会议: ICLR2026
arXiv: 2503.05188
代码: GitHub
领域: llm_reasoning
关键词: 推理时奖励模型, 推理时扩展, BoN, MCTS, 聚类奖励聚合
一句话总结¶
系统诊断推理时奖励模型(RM)的三大问题(简单题性能下降、采样增多判别力衰退、高搜索多样性损害),提出CRISP算法通过答案聚类聚合奖励信号+逐步前缀引导生成,比其他RM推理方法提升最高5%准确率,比R1模型在非数学任务上平均提升10%且token量减少90%。
背景与动机¶
- 推理时scaling技术分训练时(RL/SFT)和推理时(RM搜索)两条路线,后者被严重忽视
- R1系列模型存在过度思考(overthinking)和任务泛化有限的问题
- 当前高级RM在下游数学推理任务上BoN相比SC提升有限(<5%)
- Oracle(召回已有正确答案)远超BoN,说明瓶颈在RM判别能力而非LLM生成能力
- RM训练数据为受限的正负对,对低频分布外响应泛化差
- 推理时搜索的多样性控制与RM性能之间的关系未被系统研究
方法详解¶
三大诊断发现: - Cl.1:RM在简单题上反而损害性能——BoN/MCTS在低难度题上准确率低于SC - Cl.2:RM随采样数增加判别力下降——存在"逆长尾现象",RM倾向给低频错误答案高分 - Cl.3:过高搜索多样性损害RM性能——温度过高/MCTS树过宽过深均导致准确率下降
CRISP算法(5个模块迭代执行): 1. 路径生成:基于前缀集\(\mathcal{P}\)生成完整推理路径(非逐步展开),控制多样性(Cl.3) 2. 状态聚合:按最终答案聚类,相同答案的路径归入同一cluster 3. 奖励评估:将路径级RM分数聚合为cluster级分数\(\mathcal{F}(\mathcal{C}_j) = \sum_{x \in \mathcal{C}_j} f(x)\),抑制低频错误(Cl.2) 4. 早停机制:cluster数<2时直接返回多数投票答案,避免RM在简单题上的损害(Cl.1) 5. 前缀提取:从最高分cluster中选最高分路径,提取前i步作为下轮前缀引导
实验关键数据¶
| 方法 | Qwen2.5-3B MATH | Qwen2.5-3B Olympiad | Llama3.1-8B MATH | Llama3.1-8B Olympiad |
|---|---|---|---|---|
| Self-Consistency | 0.64 | 0.31 | 0.57 | 0.16 |
| MCTS+PRM | 0.71 | 0.31 | 0.57 | 0.19 |
| CRISP+PRM | 0.76 | 0.39 | 0.67 | 0.26 |
- 与R1模型对比:非数学任务平均准确率提升10%(Qwen)和5%(Llama)
- token消耗较R1减少高达90%
- 在常识/社会/逻辑推理上泛化能力更强
亮点¶
- 系统性的RM诊断分析,三个发现互相关联且有实验验证
- CRISP的每个模块针对性解决一个诊断发现,逻辑闭环
- 答案聚类奖励聚合思路简洁有效,抑制RM对低频错误的过度偏好
- 推理时优化vs训练时优化的对比视角有新意,展示了两者的互补性
局限性 / 可改进方向¶
- 主要在数学推理任务验证,代码生成等任务缺乏评估
- 假设答案可以被提取和聚类,对开放式生成任务适用性有限
- 前缀提取策略(取前i步)较粗糙,可能丢失关键分支信息
- 早停阈值(cluster数<2)为硬编码,缺乏自适应机制
- 未与更先进的RM(如generative RM)对比
与相关工作的对比¶
- 相比BoN/BoN Weighted,CRISP通过聚类聚合解决了低频错误的问题
- 相比MCTS,CRISP生成完整路径而非逐步展开,控制搜索多样性
- 相比R1系列训练时方法,CRISP在非数学任务上更强且更高效
- Snell等(2024)的Beam Search是最接近的baseline,CRISP在多数设置上超越
评分¶
- 新颖性: ⭐⭐⭐⭐ (诊断驱动的方法设计,发现有洞察力)
- 实验充分度: ⭐⭐⭐⭐ (多模型/多数据集/消融/与R1对比)
- 写作质量: ⭐⭐⭐⭐⭐ (问题→诊断→方案逻辑极清晰)
- 价值: ⭐⭐⭐⭐ (推理时RM优化方向有实际应用价值)