DIVA-GRPO: Enhancing Multimodal Reasoning through Difficulty-Adaptive Variant Advantage¶
会议: ICLR 2026 arXiv: 2603.01106 代码: Siaaaaaa1/DIVA-GRPO 领域: multimodal_vlm 关键词: GRPO, 强化学习, 多模态推理, 难度自适应, advantage vanishing, 变体增强
一句话总结¶
提出 DIVA-GRPO,通过动态评估问题难度、自适应生成不同难度的语义一致变体、并结合难度加权的局部-全局 advantage 估计,解决 GRPO 训练中的 reward sparsity 和 advantage vanishing 问题,在 7B 规模模型上实现 SOTA 多模态推理性能。
研究背景与动机¶
- GRPO 在多模态推理中广泛应用:GRPO 通过组内相对 advantage 估计实现无 critic 模型的长链推理训练,已成为增强 MLLM 推理能力的主流方法。
- Advantage vanishing 是核心瓶颈:当问题对当前模型过于简单或过于困难时,组内所有回答全对或全错,导致 advantage 为零,优化信号消失,训练效率骤降。
- Reward sparsity 加剧问题:在训练早期或面对困难问题时,只有极少数推理路径获得正奖励,正向反馈稀缺导致学习缓慢。
- 现有方法各有局限:(a) 样本增强扩展法(如添加 prompt、生成变体)未控制难度分布,可能加剧 advantage vanishing;(b) 选择性样本利用法丢弃部分数据,减少多样性;(c) 间接奖励设计法可能引入与最终目标不对齐的偏差。
- 难度动态变化被忽视:随着训练推进,模型能力增强,原本中等难度的问题变简单,advantage vanishing 持续恶化,但现有方法均未考虑难度的动态演变。
- 核心洞察:关键在于保证每个问题的组内奖励分布具有足够的方差,从而产生清晰的优化信号——这需要根据问题难度动态调整变体的难度分布。
方法详解¶
整体框架¶
DIVA-GRPO 由三个核心模块组成:(1) 基于历史 rollout 的动态难度评估;(2) 难度自适应的变体生成;(3) 难度加权的局部-全局 advantage 平衡与 reward-range 重缩放。训练时,先评估每个问题的难度,再根据难度采样不同类型的变体,最后在原始问题及其变体组成的扩展空间中计算 advantage 并更新策略。
关键设计 1:动态难度评估¶
- 做什么:为每个训练问题维护一个动态难度分数 \(D_q \in [D_{\min}, D_{\max}]\),根据模型在该问题上的历史表现实时更新。
- 核心思路:统计 rollout 的经验正确率 \(\alpha\),通过 \(D^{\text{new}} = \text{clip}(D^{\text{old}} + \eta \cdot (0.5 - \alpha))\) 更新难度——正确率高则难度降低,正确率低则难度升高,正确率约 50% 时保持稳定。
- 设计动机:问题难度不是固有属性,而是相对于当前模型能力的动态量。通过每个 epoch 重新校准难度,确保变体生成策略始终与模型当前水平匹配,避免训练后期所有问题变简单导致的 advantage 消失。
关键设计 2:难度自适应变体生成¶
- 做什么:根据问题难度等级,生成保持答案不变但难度不同的语义一致变体。
- 核心思路:三级策略——
- 简单问题 (\(D_q < D_{\text{mid}}\)):同时扰动文本和图像(旋转、噪声、模糊等),增大难度以产生负样本
- 中等问题 (\(D_q \approx D_{\text{mid}}\)):仅生成文本改写变体,保持难度但增加表达多样性
- 困难问题 (\(D_q > D_{\text{mid}}\)):添加部分推理步骤作为提示(think-step),降低难度以产生正样本
- 设计动机:确保每个问题的变体组内同时包含正确和错误回答,使奖励分布具有足够方差,从根本上解决 advantage vanishing。
关键设计 3:难度加权的局部-全局 Advantage 平衡¶
- 做什么:分别计算局部(单个问题组内)和全局(问题及其所有变体组内)advantage,通过 batch z-score 归一化和难度加权缩放合并。
- 核心思路:先对局部和全局 advantage 分别做 batch-level z-score 归一化消除量级差异,再用 \(\hat{A} = \exp(k \cdot (D_q^{(i)} - \bar{D}_q) \cdot \text{sgn}(\tilde{A})) \cdot \tilde{A}\) 进行难度加权——对于高于平均难度的变体,放大正确回答的 advantage、抑制错误回答;反之亦然。
- 设计动机:(1) 局部和全局 advantage 因样本量不同导致量级不一致(全局通常更大),归一化使两者可比;(2) 难度加权鼓励模型在困难问题上的正确答案获得更大收益,实现难度自适应优化。
损失函数与训练¶
- 基础损失为标准 GRPO 策略梯度损失,advantage 替换为上述难度加权、归一化后的值
- 额外引入 Reward-Range-Based Advantage Rescaling (RRB):\(\hat{A}_{\text{range}} = \Delta r_q \cdot \tilde{A}\),其中 \(\Delta r_q = (\max(\mathcal{R}_q) - \min(\mathcal{R}_q)) / R_{\max}\),防止奖励高度集中时 z-score 归一化放大微小差异
- 基座模型 Qwen2.5-VL-7B-Instruct,AdamW 优化器,学习率 \(10^{-6}\),难度初始化 \(D_q=5\)(范围 1-9),\(\eta=4\)
- 文本变体和推理提示由 GPT-o3 离线生成,图像扰动在线施加
实验关键数据¶
表1:六个多模态数学推理基准上的主实验结果¶
| 模型 | MathVista | MathVerse | MathVision | OlympiadBench | WeMath | MMK12test | Avg. |
|---|---|---|---|---|---|---|---|
| GPT-4o | 63.8 | 50.2 | 30.4 | 35.0 | 68.8 | 49.9 | 49.68 |
| Qwen2.5-VL-7B (base) | 68.2 | 47.9 | 25.4 | 20.2 | 62.1 | 53.6 | 46.23 |
| Qwen2.5-VL-72B | 74.8 | 57.6 | 38.1 | 40.4 | 72.4 | 70.5 | 59.0 |
| R1-ShareVL-7B | 73.5 | 52.8 | 29.5 | 21.3 | 67.9 | 68.8 | 52.30 |
| MM-Eureka-7B | 71.7 | 50.3 | 26.9 | 20.1 | 66.1 | 64.5 | 49.93 |
| DIVA-GRPO-7B (Ours) | 74.2 | 57.6 | 32.1 | 23.1 | 69.3 | 70.2 | 54.58 |
- 7B 规模下六个基准均达 SOTA,平均 54.58 分
- 在 MathVista/MathVerse/WeMath 上已接近 72B 级别模型
- 相比基座 Qwen2.5-VL-7B 平均提升 +8.35 分
表2:消融实验结果¶
| 方法 | MathVista | MathVerse | MMK12test | Avg. |
|---|---|---|---|---|
| w/o Variant Generation | 70.0 | 53.7 | 61.1 | 61.6 |
| w/o Difficulty-Weighting | 69.9 | 55.7 | 66.5 | 64.0 |
| w/o RRB-Rescaling | 71.5 | 55.2 | 64.7 | 63.8 |
| w/o G-L Balance | 70.8 | 55.4 | 66.0 | 64.1 |
| Full DIVA-GRPO | 73.2 | 56.3 | 68.8 | 66.1 |
- 移除任一组件均导致性能下降,变体生成的影响最大(-4.5 avg)
- 训练效率方面:达到最优性能所需步数减少 2.55×,端到端加速 1.76×
亮点¶
- 问题定义精准:从"如何保证组内奖励方差充足"的角度统一理解 advantage vanishing,提供了比现有三类方法更本质的解决思路
- 难度自适应闭环:难度评估→变体生成→advantage 加权形成完整闭环,且难度随训练动态演化
- 理论支撑充分:提供了梯度方差降低加速收敛的定理证明,以及正负样本比约 1:1 时优化信号最强的数学分析
- 训练效率显著提升:2.55× 步数减少 + 1.76× 端到端加速,实用价值高
- RRB-Rescaling 通用性强:可独立于 DIVA-GRPO 应用到任何 GRPO 框架
局限性 / 可改进方向¶
- 变体的文本推理提示依赖 GPT-o3 离线生成,引入了对闭源模型的依赖和额外成本
- 在竞赛级数学任务(OlympiadBench 23.1 vs o1 的 68.0)上仍有很大差距,7B 模型容量限制明显
- 图像扰动方式(旋转、噪声等)相对简单,对需要精细视觉理解的场景可能不够
- 难度评估基于正确率,对于部分正确或推理过程正确但最终答案错误的情况缺乏区分
与相关工作的对比¶
- vs GRPO/DAPO:标准 GRPO 和 DAPO 未考虑难度自适应,在训练后期 advantage 信号衰减;DIVA-GRPO 通过变体生成维持奖励方差
- vs GSPO:GSPO 引入语义一致变体但未动态调整难度分布;DIVA-GRPO 根据模型当前能力动态匹配变体难度
- vs Adora/MM-Eureka:这些方法通过样本选择或间接奖励缓解问题,但分别存在数据浪费和优化方向偏差的风险
- vs R1-ShareVL:同为 7B 规模 SOTA 对手,DIVA-GRPO 在 MathVerse (+4.8) 和 MMK12test (+1.4) 上优势明显
评分¶
- 新颖性: ⭐⭐⭐⭐ — 难度自适应变体生成+三级策略+RRB rescaling 组合新颖
- 实验充分度: ⭐⭐⭐⭐ — 六个基准+详细消融+效率分析+理论证明,覆盖全面
- 写作质量: ⭐⭐⭐⭐ — 问题阐述清晰,方法动机层层递进
- 价值: ⭐⭐⭐⭐ — 解决 GRPO 训练的实际痛点,RRB 组件可即插即用