Fixing the Broken Compass: Diagnosing and Improving Inference-Time Reward Modeling¶

会议: ICLR2026
arXiv: 2503.05188
代码: GitHub
领域: llm_reasoning
关键词: 推理时奖励模型, 推理时扩展, BoN, MCTS, 聚类奖励聚合

一句话总结¶

系统诊断推理时奖励模型(RM)的三大问题（简单题性能下降、采样增多判别力衰退、高搜索多样性损害），提出CRISP算法通过答案聚类聚合奖励信号+逐步前缀引导生成，比其他RM推理方法提升最高5%准确率，比R1模型在非数学任务上平均提升10%且token量减少90%。

背景与动机¶

推理时scaling技术分训练时(RL/SFT)和推理时(RM搜索)两条路线，后者被严重忽视
R1系列模型存在过度思考(overthinking)和任务泛化有限的问题
当前高级RM在下游数学推理任务上BoN相比SC提升有限(<5%)
Oracle(召回已有正确答案)远超BoN，说明瓶颈在RM判别能力而非LLM生成能力
RM训练数据为受限的正负对，对低频分布外响应泛化差
推理时搜索的多样性控制与RM性能之间的关系未被系统研究

方法详解¶

三大诊断发现： - Cl.1：RM在简单题上反而损害性能——BoN/MCTS在低难度题上准确率低于SC - Cl.2：RM随采样数增加判别力下降——存在"逆长尾现象"，RM倾向给低频错误答案高分 - Cl.3：过高搜索多样性损害RM性能——温度过高/MCTS树过宽过深均导致准确率下降

CRISP算法（5个模块迭代执行）： 1. 路径生成：基于前缀集\(\mathcal{P}\)生成完整推理路径（非逐步展开），控制多样性(Cl.3) 2. 状态聚合：按最终答案聚类，相同答案的路径归入同一cluster 3. 奖励评估：将路径级RM分数聚合为cluster级分数\(\mathcal{F}(\mathcal{C}_j) = \sum_{x \in \mathcal{C}_j} f(x)\)，抑制低频错误(Cl.2) 4. 早停机制：cluster数<2时直接返回多数投票答案，避免RM在简单题上的损害(Cl.1) 5. 前缀提取：从最高分cluster中选最高分路径，提取前i步作为下轮前缀引导

实验关键数据¶

方法	Qwen2.5-3B MATH	Qwen2.5-3B Olympiad	Llama3.1-8B MATH	Llama3.1-8B Olympiad
Self-Consistency	0.64	0.31	0.57	0.16
MCTS+PRM	0.71	0.31	0.57	0.19
CRISP+PRM	0.76	0.39	0.67	0.26

与R1模型对比：非数学任务平均准确率提升10%(Qwen)和5%(Llama)
token消耗较R1减少高达90%
在常识/社会/逻辑推理上泛化能力更强

亮点¶

系统性的RM诊断分析，三个发现互相关联且有实验验证
CRISP的每个模块针对性解决一个诊断发现，逻辑闭环
答案聚类奖励聚合思路简洁有效，抑制RM对低频错误的过度偏好
推理时优化vs训练时优化的对比视角有新意，展示了两者的互补性

局限性 / 可改进方向¶

主要在数学推理任务验证，代码生成等任务缺乏评估
假设答案可以被提取和聚类，对开放式生成任务适用性有限
前缀提取策略(取前i步)较粗糙，可能丢失关键分支信息
早停阈值(cluster数<2)为硬编码，缺乏自适应机制
未与更先进的RM(如generative RM)对比

与相关工作的对比¶

相比BoN/BoN Weighted，CRISP通过聚类聚合解决了低频错误的问题
相比MCTS，CRISP生成完整路径而非逐步展开，控制搜索多样性
相比R1系列训练时方法，CRISP在非数学任务上更强且更高效
Snell等(2024)的Beam Search是最接近的baseline，CRISP在多数设置上超越

评分¶

新颖性: ⭐⭐⭐⭐ (诊断驱动的方法设计，发现有洞察力)
实验充分度: ⭐⭐⭐⭐ (多模型/多数据集/消融/与R1对比)
写作质量: ⭐⭐⭐⭐⭐ (问题→诊断→方案逻辑极清晰)
价值: ⭐⭐⭐⭐ (推理时RM优化方向有实际应用价值)