SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning¶

会议: NeurIPS 2025
arXiv: 2506.01713
代码: https://srpo.pages.dev/
领域: 多模态VLM / LLM推理
关键词: 多模态推理, 自我反思, 强化学习, GRPO, Reflection-Aware RL

一句话总结¶

提出 SRPO（Self-Reflection enhanced reasoning with Group Relative Policy Optimization），一个两阶段反思感知 RL 框架：第一阶段用大模型生成反思数据做 SFT cold-start，第二阶段设计反思感知奖励函数在 GRPO 中强化简洁有效的自我反思能力，在 MathVista/MathVision/MMMU-Pro 等多模态推理基准上以 7B/32B 模型显著超越同规模 SOTA。

研究背景与动机¶

领域现状: 多模态大模型（MLLM）在推理任务中展现了潜力，DeepSeek-R1 等工作将 RL-based 推理从文本扩展到多模态场景。但现有方法（MM-Eureka、Vision-R1、VL-Rethinker 等）在 7B 规模模型上仍难以匹配闭源模型的推理表现。
现有痛点: (1) MLLM 生成过程遵循 token 级 Markov 过程，依赖局部依赖关系，导致冗余、重复或错误的推理步骤；(2) GPT-o1 在 MathVista 上 73.9% 甚至不如 Qwen2.5-VL-72B 的 74.8%，说明错误和冗余步骤会拖累最终性能。
核心矛盾: 自我反思是解决冗余/错误推理的有效手段，但预训练阶段已经基本固定了模型的推理能力上限。RL 只能激活已有的决策结构而非获取新知识——要突破这个上限需要外部干预（如高质量反思经验的注入）。
本文要解决什么？ 如何让 MLLM 学会有效的自我反思和自我纠错，从而突破预训练阶段设定的推理能力上界。
切入角度: 受认知科学启发——人类的稳健推理涉及主动自我反思和迭代纠错。将显式反思方法同时融入 SFT 和 RL 两个阶段。
核心idea一句话: 两阶段训练——先用大模型蒸馏的反思数据做 SFT 注入反思能力，再用反思感知奖励函数在 GRPO 中强化简洁有效的反思行为。

方法详解¶

整体框架¶

SRPO 分两个阶段： - Stage 1 (Reflection-oriented Cold-start SFT): 构建高质量反思数据集，训练 policy model 获得基础反思能力 - Stage 2 (Reflection-aware RL): 在 GRPO 框架中引入专门的反思奖励函数，进一步强化反思行为

生成格式：first solution → <reflection>...</reflection> → second refined solution

关键设计¶

Self-Reflection SFT 数据构建:
从 LLaVA-CoT (100K)、Mulberry (260K)、MathV360K 中精选 N=10,000 个多模态推理样本
用 policy model (如 Qwen-2.5-VL-7B) 生成初始回答
用大模型 (GPT-o4-mini) 基于 ground truth 生成反思过程
两种互补策略：正确 CoT 的精简（去除冗余）+ 错误 CoT 的修正（纠错）
数据中约 30% 初始回答正确、70% 包含错误，凸显反思的必要性
"Less is More"——仅用 10K 样本即可有效注入反思能力
Cold-start SFT 训练: 目标函数 L = -E[log π(a1, <reflection>...</reflection>, a2 | q)]，其中 a1 是策略模型初始回答，reflection 是大模型生成的反思，a2 是 ground truth。模型同时学习：(1) 通过反思从 a1 修正到 a2；(2) 利用 a2 中的推理知识指导未来预测。
Reflection-Aware Reward (SRPO 核心):
总奖励 R_total = R_task + R_reflection
Task Reward: R_format (0.5 if 格式正确) + R_accuracy (0.5 if 第一次解答正确)
Reflection Reward = I_eff + I_ref + α·f_len(L)
- I_eff (有效性指标): 反思纠正错误答案 +0.5，保持正确答案 +0.25，未能纠正 0，把正确改错 -0.25
- I_ref: 反思格式正确 +0.25
- f_len: 长度奖励，以 exp(-|L-T_target|/(T_max-T_target))^2 鼓励简洁输出

损失函数 / 训练策略¶

RL 阶段使用 GRPO 优化，组内归一化计算 advantage：A_i = (r_i - mean(r)) / std(r)
关键改进：奖励信号不仅关注准确率，还直接对反思行为的「有效性」、「简洁性」、「格式」给予细粒度奖励
SFT 数据来自 ScienceQA、Geometric Math QA、ChartQA、DVQA、AI2D、MATH、Virgo、R1-OneVision、MMK12、PhyX 等多来源聚合

实验关键数据¶

主实验¶

7B 模型对比¶

模型	MathVista	MathVerse	MathVision	MMMU-Pro	EMMA
Qwen-2.5-VL-7B	68.2	46.3	25.1	36.9	21.5
VL-Rethinker-7B	74.9	54.2	32.3	41.7	29.7
Vision-R1-7B	73.5	52.4	27.2	37.7	22.4
MM-Eureka-7B	73.0	50.3	26.9	37.6	23.5
SRPO-7B	75.8	55.8	32.9	42.3	29.6

32B 模型对比¶

模型	MathVista	MathVerse	MathVision	MMMU-Pro	EMMA
Qwen-2.5-VL-32B	74.7	48.5	38.4	49.5	31.1
MM-Eureka-32B	74.8	56.5	34.4	50.4	34.5
SRPO-32B	78.5	58.9	39.6	51.3	38.2

SRPO-7B 在所有基准上全面超越同规模开源推理模型；SRPO-32B 在 MMMU-Pro 上达到 51.3，接近闭源 Claude3.7-Sonnet 的 51.5。

消融实验¶

消融维度	关键发现
去掉 I_eff (有效性奖励)	性能显著下降，模型生成空洞反思
去掉 f_len (长度奖励)	输出冗余增加，反思段落过长
仅用 SFT 不做 RL	性能低于完整 SRPO，验证 RL 阶段的必要性
标准 GRPO 无反思奖励	模型不生成有意义的反思行为

关键发现¶

两阶段训练缺一不可：SFT 注入反思能力，RL 强化反思质量
I_eff 奖励设计是核心——区分"保持正确"和"纠正错误"给予不同奖励，防止模型把对的改错
长度奖励有效防止 reward hacking（通过膨胀输出长度获得高奖励）
仅用 10K SFT 数据即可实现有效的反思能力注入

亮点与洞察¶

反思感知奖励设计精巧: I_eff 的四档奖励（+0.5/+0.25/0/-0.25）直接与反思是否真正改善结果挂钩，避免"为反思而反思"
SFT 数据构建策略新颖: "Less is More"——10K 样本覆盖正确精简和错误修正两种场景，比前人的大规模 CoT 蒸馏更高效
跨规模一致性: 7B 和 32B 上均有显著提升，说明方法的通用性
补充了多模态推理中的反思空白: 前人（VL-Rethinker、Vision-R1）未在 SFT+RL 两阶段都显式强化反思

局限性 / 可改进方向¶

反思数据构建依赖闭源大模型 (GPT-o4-mini)，蒸馏成本存在
反思格式固定为 <reflection> 标签包裹，未探索更灵活的反思形式
当前仅在数学和通用科学推理上验证，未涵盖开放式视觉推理
I_eff 的四档阈值为手动设定，未探索更细粒度或自适应的奖励
未与 RL-based 方法（如 DAPO、Dr.GRPO）做深度对比

评分¶

新颖性: ⭐⭐⭐⭐ — 反思感知奖励函数设计在 GRPO 框架中是首创，SFT+RL 双阶段反思注入新颖
实验充分度: ⭐⭐⭐⭐⭐ — 8 个基准、7B/32B 两个规模、详细消融和对比
写作质量: ⭐⭐⭐⭐ — 动机清晰，公式完整，图表丰富
价值: ⭐⭐⭐⭐ — 为多模态推理中的自我反思提供了可复现的训练范式