Unlocking Multimodal Mathematical Reasoning via Process Reward Model¶

会议: NeurIPS 2025
arXiv: 2501.04686
代码: URSA-MATH
领域: multimodal_vlm / llm_reasoning
关键词: process reward model, multimodal math, GRPO, test-time scaling, chain-of-thought

一句话总结¶

提出URSA三阶段框架，依次构建百万级多模态CoT数据(MMathCoT-1M)训练基座、双视角过程监督数据(DualMath-1.1M)训练PRM、以及PS-GRPO算法将PRM融入在线RL，8B模型在6个数学基准上平均超越GPT-4o 2.7%。

研究背景与动机¶

PRM在多模态推理中的空白：过程奖励模型(PRM)已在纯文本LLM数学推理的测试时缩放(TTS)和强化学习中展现价值，但多模态场景中的应用几乎未被探索。
高质量推理数据匮乏：现有多模态数学数据多为answer-only格式或缺乏严格逐步逻辑，TTS和RL的效果上限受基座模型能力制约。
多模态过程标注缺乏自动化方法：文本PRM标注可用MCTS，但多模态场景需同时关注逻辑正确性和视觉感知一致性，尚无系统方案。
PRM在在线RL中的失败模式：直接将标量过程奖励作为RL目标会导致reward hacking（模型学会迎合PRM而非真正推理）和长度偏差（PRM倾向惩罚长推理链）。
Test-Time Scaling的潜力：Best-of-N配合PRM验证可大幅提升推理准确率，仅4次采样即可获得显著提升。
开源模型与闭源差距：8B参数的开源MLLM在数学推理上与GPT-4o仍有差距，需要数据+训练范式的系统性突破。

方法详解¶

URSA三阶段框架¶

Stage I：数据构建 + 基座训练 - 收集860K数学密集型视觉-语言对齐数据(URSA-Alignment-860K)，仅训练MLP投影层 - 从5个开源数据集收集1.43M样本，按格式分三类处理： - Answer-only → CoT扩展（用Gemini生成推理轨迹） - Analysis-formatted → 重写（增强逐步逻辑和语言多样性） - CoT-formatted → 格式统一（数学语言自然化） - 过滤正确性和一致性问题后得到MMathCoT-1M，全参数微调得URSA-8B

Stage II：双视角过程监督数据合成 - 二值错误定位引擎(BEL)：对URSA-8B零样本推理的~553K错误解答用MCTS标注首个错误步骤，二分搜索加速定位（\(mc_i > 0\)表示"可能正确"），加入180K正确样本平衡→773K样本 - 误解插入引擎(MIE)：针对多模态独有的感知不一致问题，自动在正确推理中插入视觉幻觉错误（混淆图像中相似条件），从插入点起标记为负→302K样本 - 合并为DualMath-1.1M，训练URSA-8B-RM（二分类逐步正确性预测）

Stage III：PS-GRPO（过程监督的GRPO） - 问题发现：标量过程奖励直接做RL目标有两大失败模式——reward hacking（测试准确率反降）和长度偏差（鼓励短回答） - 关键洞察：虽然PRM标量奖励不可靠，但相对质量排序可信——BoN验证和错误识别能力在RL训练中保持稳定 - 提出"drop-moment"概念：PRM奖励序列相邻步骤奖励下降超过阈值ρ=0.3时，表示PRM质疑推理质量 - 奖励设计：正确且无drop-moment→奖励1；正确但有drop-moment→惩罚为1-γ(γ=0.5)；错误→0

实验关键数据¶

表1：6个基准平均性能（与SOTA对比）¶

模型	参数量	平均	MathVerse	MathVision	MathVista-GPS
GPT-4o	-	55.5	50.2	30.4	64.7
Gemma3-12B	12B	49.8	40.1	29.1	63.6
AtomThink-EMOVA	8B	49.5	42.5	24.9	75.9
URSA-8B	8B	54.7	45.7	28.7	81.7
URSA-8B-PS-GRPO	8B	58.2	50.9	31.5	83.2

表2：PS-GRPO vs Vanilla GRPO（相对提升）¶

方法	平均提升	WE-MATH	MathVision	MathVerse
Vanilla GRPO	+3.1%	较小提升	较小提升	中等提升
PS-GRPO	+6.8%	~2x GRPO	~2x GRPO	优于GRPO

BoN验证：URSA-8B-RM在Best-of-4即可在MathVerse获16.6%相对提升，Best-of-32时MathVision达35.1超越GPT-4o(30.4)。消融显示BEL和MIE两部分数据互补，去掉任一都会导致性能下降。

亮点¶

系统性框架设计：三阶段流水线（数据→PRM→RL）层层递进，每阶段都有独立贡献和可复用产出（两个百万级数据集均开源）
PS-GRPO的精妙设计：不直接用标量过程奖励做RL目标（避免reward hacking），而是利用PRM的相对排序能力做惩罚信号，巧妙绕过了PRM在RL中的已知失败模式
双视角过程监督：BEL处理逻辑错误+MIE处理感知幻觉，首次系统覆盖多模态推理的两类核心错误
8B模型超越GPT-4o：在MathVision上首次实现开源8B模型超越GPT-4o (31.5 vs 30.4)，参数效率极高
完整的大规模开源：代码、两个百万级数据集、检查点全部开放

局限性¶

DynaMath差距明显：在动态数学推理上仍然落后，说明小规模MLLM在鲁棒问题求解上仍有瓶颈
PRM依赖基座模型质量：BEL的MCTS标注需要基座模型能生成足够多样的rollout，质量受限于URSA-8B自身能力
MIE的人工设计成分：误解插入策略由人工定义规则（混淆相似条件），可能无法覆盖所有类型的视觉感知错误
计算开销未充分讨论：三阶段训练+MCTS标注+PS-GRPO的总训练成本较高，限制了更大规模实验
PS-GRPO超参敏感性：drop-moment阈值ρ和惩罚系数γ的选择可能影响性能，论文未充分展示消融

评分¶

维度	评分	说明
新颖性	⭐⭐⭐⭐	首次系统探索多模态PRM，PS-GRPO设计巧妙
技术深度	⭐⭐⭐⭐⭐	三阶段覆盖数据、PRM、RL，每步都有深入分析
实验充分性	⭐⭐⭐⭐⭐	6个基准、多种消融、BoN分析、训练曲线、与GRPO对比
实际影响	⭐⭐⭐⭐	开源数据集和模型有直接价值，但方法复杂度较高