Unlocking Multimodal Mathematical Reasoning via Process Reward Model¶
会议: NeurIPS 2025
arXiv: 2501.04686
代码: URSA-MATH
领域: multimodal_vlm / llm_reasoning
关键词: process reward model, multimodal math, GRPO, test-time scaling, chain-of-thought
一句话总结¶
提出URSA三阶段框架,依次构建百万级多模态CoT数据(MMathCoT-1M)训练基座、双视角过程监督数据(DualMath-1.1M)训练PRM、以及PS-GRPO算法将PRM融入在线RL,8B模型在6个数学基准上平均超越GPT-4o 2.7%。
研究背景与动机¶
- PRM在多模态推理中的空白:过程奖励模型(PRM)已在纯文本LLM数学推理的测试时缩放(TTS)和强化学习中展现价值,但多模态场景中的应用几乎未被探索。
- 高质量推理数据匮乏:现有多模态数学数据多为answer-only格式或缺乏严格逐步逻辑,TTS和RL的效果上限受基座模型能力制约。
- 多模态过程标注缺乏自动化方法:文本PRM标注可用MCTS,但多模态场景需同时关注逻辑正确性和视觉感知一致性,尚无系统方案。
- PRM在在线RL中的失败模式:直接将标量过程奖励作为RL目标会导致reward hacking(模型学会迎合PRM而非真正推理)和长度偏差(PRM倾向惩罚长推理链)。
- Test-Time Scaling的潜力:Best-of-N配合PRM验证可大幅提升推理准确率,仅4次采样即可获得显著提升。
- 开源模型与闭源差距:8B参数的开源MLLM在数学推理上与GPT-4o仍有差距,需要数据+训练范式的系统性突破。
方法详解¶
URSA三阶段框架¶
Stage I:数据构建 + 基座训练 - 收集860K数学密集型视觉-语言对齐数据(URSA-Alignment-860K),仅训练MLP投影层 - 从5个开源数据集收集1.43M样本,按格式分三类处理: - Answer-only → CoT扩展(用Gemini生成推理轨迹) - Analysis-formatted → 重写(增强逐步逻辑和语言多样性) - CoT-formatted → 格式统一(数学语言自然化) - 过滤正确性和一致性问题后得到MMathCoT-1M,全参数微调得URSA-8B
Stage II:双视角过程监督数据合成 - 二值错误定位引擎(BEL):对URSA-8B零样本推理的~553K错误解答用MCTS标注首个错误步骤,二分搜索加速定位(\(mc_i > 0\)表示"可能正确"),加入180K正确样本平衡→773K样本 - 误解插入引擎(MIE):针对多模态独有的感知不一致问题,自动在正确推理中插入视觉幻觉错误(混淆图像中相似条件),从插入点起标记为负→302K样本 - 合并为DualMath-1.1M,训练URSA-8B-RM(二分类逐步正确性预测)
Stage III:PS-GRPO(过程监督的GRPO) - 问题发现:标量过程奖励直接做RL目标有两大失败模式——reward hacking(测试准确率反降)和长度偏差(鼓励短回答) - 关键洞察:虽然PRM标量奖励不可靠,但相对质量排序可信——BoN验证和错误识别能力在RL训练中保持稳定 - 提出"drop-moment"概念:PRM奖励序列相邻步骤奖励下降超过阈值ρ=0.3时,表示PRM质疑推理质量 - 奖励设计:正确且无drop-moment→奖励1;正确但有drop-moment→惩罚为1-γ(γ=0.5);错误→0
实验关键数据¶
表1:6个基准平均性能(与SOTA对比)¶
| 模型 | 参数量 | 平均 | MathVerse | MathVision | MathVista-GPS |
|---|---|---|---|---|---|
| GPT-4o | - | 55.5 | 50.2 | 30.4 | 64.7 |
| Gemma3-12B | 12B | 49.8 | 40.1 | 29.1 | 63.6 |
| AtomThink-EMOVA | 8B | 49.5 | 42.5 | 24.9 | 75.9 |
| URSA-8B | 8B | 54.7 | 45.7 | 28.7 | 81.7 |
| URSA-8B-PS-GRPO | 8B | 58.2 | 50.9 | 31.5 | 83.2 |
表2:PS-GRPO vs Vanilla GRPO(相对提升)¶
| 方法 | 平均提升 | WE-MATH | MathVision | MathVerse |
|---|---|---|---|---|
| Vanilla GRPO | +3.1% | 较小提升 | 较小提升 | 中等提升 |
| PS-GRPO | +6.8% | ~2x GRPO | ~2x GRPO | 优于GRPO |
BoN验证:URSA-8B-RM在Best-of-4即可在MathVerse获16.6%相对提升,Best-of-32时MathVision达35.1超越GPT-4o(30.4)。消融显示BEL和MIE两部分数据互补,去掉任一都会导致性能下降。
亮点¶
- 系统性框架设计:三阶段流水线(数据→PRM→RL)层层递进,每阶段都有独立贡献和可复用产出(两个百万级数据集均开源)
- PS-GRPO的精妙设计:不直接用标量过程奖励做RL目标(避免reward hacking),而是利用PRM的相对排序能力做惩罚信号,巧妙绕过了PRM在RL中的已知失败模式
- 双视角过程监督:BEL处理逻辑错误+MIE处理感知幻觉,首次系统覆盖多模态推理的两类核心错误
- 8B模型超越GPT-4o:在MathVision上首次实现开源8B模型超越GPT-4o (31.5 vs 30.4),参数效率极高
- 完整的大规模开源:代码、两个百万级数据集、检查点全部开放
局限性¶
- DynaMath差距明显:在动态数学推理上仍然落后,说明小规模MLLM在鲁棒问题求解上仍有瓶颈
- PRM依赖基座模型质量:BEL的MCTS标注需要基座模型能生成足够多样的rollout,质量受限于URSA-8B自身能力
- MIE的人工设计成分:误解插入策略由人工定义规则(混淆相似条件),可能无法覆盖所有类型的视觉感知错误
- 计算开销未充分讨论:三阶段训练+MCTS标注+PS-GRPO的总训练成本较高,限制了更大规模实验
- PS-GRPO超参敏感性:drop-moment阈值ρ和惩罚系数γ的选择可能影响性能,论文未充分展示消融
评分¶
| 维度 | 评分 | 说明 |
|---|---|---|
| 新颖性 | ⭐⭐⭐⭐ | 首次系统探索多模态PRM,PS-GRPO设计巧妙 |
| 技术深度 | ⭐⭐⭐⭐⭐ | 三阶段覆盖数据、PRM、RL,每步都有深入分析 |
| 实验充分性 | ⭐⭐⭐⭐⭐ | 6个基准、多种消融、BoN分析、训练曲线、与GRPO对比 |
| 实际影响 | ⭐⭐⭐⭐ | 开源数据集和模型有直接价值,但方法复杂度较高 |