跳转至

Unlocking Multimodal Mathematical Reasoning via Process Reward Model

会议: NeurIPS 2025
arXiv: 2501.04686
代码: URSA-MATH
领域: multimodal_vlm / llm_reasoning
关键词: process reward model, multimodal math, GRPO, test-time scaling, chain-of-thought

一句话总结

提出URSA三阶段框架,依次构建百万级多模态CoT数据(MMathCoT-1M)训练基座、双视角过程监督数据(DualMath-1.1M)训练PRM、以及PS-GRPO算法将PRM融入在线RL,8B模型在6个数学基准上平均超越GPT-4o 2.7%。

研究背景与动机

  1. PRM在多模态推理中的空白:过程奖励模型(PRM)已在纯文本LLM数学推理的测试时缩放(TTS)和强化学习中展现价值,但多模态场景中的应用几乎未被探索。
  2. 高质量推理数据匮乏:现有多模态数学数据多为answer-only格式或缺乏严格逐步逻辑,TTS和RL的效果上限受基座模型能力制约。
  3. 多模态过程标注缺乏自动化方法:文本PRM标注可用MCTS,但多模态场景需同时关注逻辑正确性和视觉感知一致性,尚无系统方案。
  4. PRM在在线RL中的失败模式:直接将标量过程奖励作为RL目标会导致reward hacking(模型学会迎合PRM而非真正推理)和长度偏差(PRM倾向惩罚长推理链)。
  5. Test-Time Scaling的潜力:Best-of-N配合PRM验证可大幅提升推理准确率,仅4次采样即可获得显著提升。
  6. 开源模型与闭源差距:8B参数的开源MLLM在数学推理上与GPT-4o仍有差距,需要数据+训练范式的系统性突破。

方法详解

URSA三阶段框架

Stage I:数据构建 + 基座训练 - 收集860K数学密集型视觉-语言对齐数据(URSA-Alignment-860K),仅训练MLP投影层 - 从5个开源数据集收集1.43M样本,按格式分三类处理: - Answer-only → CoT扩展(用Gemini生成推理轨迹) - Analysis-formatted → 重写(增强逐步逻辑和语言多样性) - CoT-formatted → 格式统一(数学语言自然化) - 过滤正确性和一致性问题后得到MMathCoT-1M,全参数微调得URSA-8B

Stage II:双视角过程监督数据合成 - 二值错误定位引擎(BEL):对URSA-8B零样本推理的~553K错误解答用MCTS标注首个错误步骤,二分搜索加速定位(\(mc_i > 0\)表示"可能正确"),加入180K正确样本平衡→773K样本 - 误解插入引擎(MIE):针对多模态独有的感知不一致问题,自动在正确推理中插入视觉幻觉错误(混淆图像中相似条件),从插入点起标记为负→302K样本 - 合并为DualMath-1.1M,训练URSA-8B-RM(二分类逐步正确性预测)

Stage III:PS-GRPO(过程监督的GRPO) - 问题发现:标量过程奖励直接做RL目标有两大失败模式——reward hacking(测试准确率反降)和长度偏差(鼓励短回答) - 关键洞察:虽然PRM标量奖励不可靠,但相对质量排序可信——BoN验证和错误识别能力在RL训练中保持稳定 - 提出"drop-moment"概念:PRM奖励序列相邻步骤奖励下降超过阈值ρ=0.3时,表示PRM质疑推理质量 - 奖励设计:正确且无drop-moment→奖励1;正确但有drop-moment→惩罚为1-γ(γ=0.5);错误→0

实验关键数据

表1:6个基准平均性能(与SOTA对比)

模型 参数量 平均 MathVerse MathVision MathVista-GPS
GPT-4o - 55.5 50.2 30.4 64.7
Gemma3-12B 12B 49.8 40.1 29.1 63.6
AtomThink-EMOVA 8B 49.5 42.5 24.9 75.9
URSA-8B 8B 54.7 45.7 28.7 81.7
URSA-8B-PS-GRPO 8B 58.2 50.9 31.5 83.2

表2:PS-GRPO vs Vanilla GRPO(相对提升)

方法 平均提升 WE-MATH MathVision MathVerse
Vanilla GRPO +3.1% 较小提升 较小提升 中等提升
PS-GRPO +6.8% ~2x GRPO ~2x GRPO 优于GRPO

BoN验证:URSA-8B-RM在Best-of-4即可在MathVerse获16.6%相对提升,Best-of-32时MathVision达35.1超越GPT-4o(30.4)。消融显示BEL和MIE两部分数据互补,去掉任一都会导致性能下降。

亮点

  1. 系统性框架设计:三阶段流水线(数据→PRM→RL)层层递进,每阶段都有独立贡献和可复用产出(两个百万级数据集均开源)
  2. PS-GRPO的精妙设计:不直接用标量过程奖励做RL目标(避免reward hacking),而是利用PRM的相对排序能力做惩罚信号,巧妙绕过了PRM在RL中的已知失败模式
  3. 双视角过程监督:BEL处理逻辑错误+MIE处理感知幻觉,首次系统覆盖多模态推理的两类核心错误
  4. 8B模型超越GPT-4o:在MathVision上首次实现开源8B模型超越GPT-4o (31.5 vs 30.4),参数效率极高
  5. 完整的大规模开源:代码、两个百万级数据集、检查点全部开放

局限性

  1. DynaMath差距明显:在动态数学推理上仍然落后,说明小规模MLLM在鲁棒问题求解上仍有瓶颈
  2. PRM依赖基座模型质量:BEL的MCTS标注需要基座模型能生成足够多样的rollout,质量受限于URSA-8B自身能力
  3. MIE的人工设计成分:误解插入策略由人工定义规则(混淆相似条件),可能无法覆盖所有类型的视觉感知错误
  4. 计算开销未充分讨论:三阶段训练+MCTS标注+PS-GRPO的总训练成本较高,限制了更大规模实验
  5. PS-GRPO超参敏感性:drop-moment阈值ρ和惩罚系数γ的选择可能影响性能,论文未充分展示消融

评分

维度 评分 说明
新颖性 ⭐⭐⭐⭐ 首次系统探索多模态PRM,PS-GRPO设计巧妙
技术深度 ⭐⭐⭐⭐⭐ 三阶段覆盖数据、PRM、RL,每步都有深入分析
实验充分性 ⭐⭐⭐⭐⭐ 6个基准、多种消融、BoN分析、训练曲线、与GRPO对比
实际影响 ⭐⭐⭐⭐ 开源数据集和模型有直接价值,但方法复杂度较高