Unveiling Chain of Step Reasoning for Vision-Language Models with Fine-grained Rewards¶
会议: NeurIPS 2025
arXiv: 2509.19003
代码: https://github.com/baaivision/CoS
领域: 多模态VLM / 视觉推理 / 过程奖励模型
关键词: chain-of-step, process reward model, step-level reasoning, iterative DPO, inference-time scaling
一句话总结¶
提出Chain-of-Step (CoS)推理框架:将VLM的推理链分解为结构化步骤(Name+Thought+Reflection),训练Process Reward Model (PRM)提供步骤级精细奖励,通过迭代DPO和step-level beam search显著提升VLM推理能力——在InternVL-2.5-MPO-8B上平均提升4.0%达到73.4%,并揭示"对VLM而言推理质量比长度更重要"。
背景与动机¶
现有VLM的CoT推理是粗粒度的——输出一长段thought without结构化步骤划分,导致推理容易变得冗长混乱,更关键的是无法评估中间推理步骤的质量。这使得RL训练和inference-time scaling都缺乏有效的reward信号。LLM领域的PRM(如Math-Shepherd、Let's Verify Step by Step)已证明step-level reward的价值,但在VLM领域尚未被充分探索。
核心问题¶
如何将VLM的推理链分解为结构化步骤?如何提供精细的步骤级reward信号?step-level reward能否比outcome-level reward更有效地指导RL训练和inference-time scaling?
方法详解¶
整体框架¶
三阶段pipeline(Figure 1): 1. SFT on ShareGPT-Step-300K:教模型输出结构化步骤推理 2. 训练PRM:用Monte Carlo估计+GPT-4o标注训练step-level reward model 3. Iterative DPO with PRM:用PRM选择正负样本对做3轮迭代DPO
关键设计¶
- 结构化推理步骤设计:每个推理步包含三个组件:
- Name:步骤概要(如"识别几何形状")
- Thought:详细推理内容
- Reflection:与视觉内容和前序步骤的关联,缓解幻觉
用11个特殊token标记步骤边界,确保输出格式稳定可解析。步骤数量和长度由模型自主决定。
-
ShareGPT-Step-300K数据集:用GPT-4o从17个数据集的QA pairs生成结构化推理链。覆盖数学、科学、图表、文档、知识问答等多样任务。"从结果推理"——给GPT-4o答案参考可大幅降低生成难度、提高质量。
-
Process Reward Model (PRM):
- 训练数据:用Math-Shepherd (MC估计, N=16)和GPT-4o-as-Judge两种方法各标注100K步骤级数据
- 标注粒度:每步标注Good/Neutral/Bad
- 基座:InternVL-2.5-MPO-38B,BCE loss训练2 epochs
-
Step accuracy 87.3% on unseen data
-
Iterative DPO:每轮对每个问题生成16条推理路径,用PRM评估(step score 20% + answer score 80%加权),选择分差超过阈值t的正负对做DPO。3轮迭代,每轮20K preference pairs。
-
Step-level Beam Search(推理时):
- 对每一步采样N个候选
- 用PRM打分选最佳步骤
- 基于最佳步骤继续采样下一步
- 与Best-of-N sampling成本相同但效果更好
实验关键数据¶
| 方法 | MathVista | MMStar | MMMU | M3CoT | AI2D | ChartQA | Avg |
|---|---|---|---|---|---|---|---|
| InternVL2.5-MPO-8B | 65.0 | 60.7 | 53.8 | 67.5 | 84.2 | 85.0 | 69.4 |
| + SFT (CoS) | 65.9 | 61.0 | 53.7 | 75.7 | 81.6 | 88.3 | 71.0 |
| + Iterative DPO (CoS) | 67.8 | 63.5 | 55.5 | 81.0 | 84.9 | 87.4 | 73.4 |
| LLaVA-NeXT-8B | 45.9 | 43.1 | 36.9 | 45.6 | 71.5 | 69.4 | 52.1 |
| + CoS (SFT+DPO) | 54.7 | 58.9 | 41.8 | 71.7 | 79.2 | 79.1 | 64.2 |
GRPO验证:CoS GRPO (PRM reward) > Outcome GRPO,平均63.0 vs 61.2。
消融实验要点¶
- Step weight最优20%:纯step score或纯answer score都不是最优,20% step + 80% answer效果最好
- PRM > Self-Consistency > Outcome:step-level PRM选择的Best-of-N显著优于Self-Consistency投票
- Step-level beam search > Best-of-N:同等计算量下beam search一致性更好
- PRM DPO > Outcome DPO:step & answer综合reward的DPO比仅看最终答案正确性提升1.7%(M3CoT上71.7 vs 70.0)
- 推理长度反直觉发现:PRM DPO训练初期模型缩短推理长度以提高质量,稳定后才慢慢增长;而Outcome DPO则持续增长长度→说明VLM推理中质量 > 长度
- Step-wise DPO失败:每步构造preference pair→chosen和rejected太相似,模型拒绝输出两者
亮点 / 我学到了什么¶
- 结构化推理步骤的设计(Name+Thought+Reflection)非常实用,Reflection组件有效连接视觉内容和前序推理
- "VLM推理质量>长度"的发现与LLM中"更长=更好"的趋势相反——视觉推理更依赖视觉信息利用和知识连接
- PRM训练只需一次,可服务多个模型——38B PRM为8B模型提供reward是scale-efficient的
- Step-wise DPO的失败案例很有教育意义——chosen和rejected的差异需要足够大才能形成有效的学习信号
- Inference-time scaling:PRM-BS在N=64时比Self-Consistency高5%+
局限性 / 可改进方向¶
- MC估计和LLM-as-Judge的标注质量无法保证100%正确
- 仅在8B模型上全面验证,更大模型(如72B)的效果未知
- Reflection组件是否真正利用了视觉信息需要更深入的分析
- 38B PRM的inference成本在生产环境中可能偏高
- ShareGPT-Step-300K用GPT-4o生成,对闭源模型有依赖
与相关工作的对比¶
- vs LLaVA-CoT:LLaVA-CoT用粗粒度推理(SUMMARY/CAPTION/REASONING/CONCLUSION),CoS用细粒度步骤(Name/Thought/Reflection)+ PRM
- vs Sherlock (2505.22651):Sherlock做response-wise自纠正,CoS做step-wise精细评估——互补
- vs NoisyRollout (2504.13055):NoisyRollout增强exploration diversity,CoS用PRM提供精细reward——可组合
- vs URSA:URSA也用PRM但推理链是粗粒度的,CoS的结构化步骤使PRM评估更准确
与我的研究方向的关联¶
- PRM是VLM推理后训练的关键组件——与所有RL-based VLM方法互补
- "质量>长度"的insight与overthinking研究方向一致,可用于指导adaptive inference
- 与Sherlock的trajectory-level纠正互补——CoS提供step-level reward,Sherlock做response-level纠正
评分¶
- 新颖性: ⭐⭐⭐⭐ 结构化步骤+PRM在VLM领域是新的组合,但各组件并非全新
- 实验充分度: ⭐⭐⭐⭐⭐ 消融极其全面——step weight、PRM选择、推理长度、reasoning pattern、GRPO验证、step-wise DPO失败分析
- 写作质量: ⭐⭐⭐⭐⭐ 逻辑递进清晰,每个发现都有实验支撑,失败案例也诚实报告
- 对我的价值: ⭐⭐⭐⭐⭐ VLM推理后训练的complete framework,PRM+step-level beam search对inference scaling有直接价值