跳转至

DIVA-GRPO: Enhancing Multimodal Reasoning through Difficulty-Adaptive Variant Advantage

会议: ICLR 2026 arXiv: 2603.01106 代码: Siaaaaaa1/DIVA-GRPO 领域: multimodal_vlm 关键词: GRPO, 强化学习, 多模态推理, 难度自适应, advantage vanishing, 变体增强

一句话总结

提出 DIVA-GRPO,通过动态评估问题难度、自适应生成不同难度的语义一致变体、并结合难度加权的局部-全局 advantage 估计,解决 GRPO 训练中的 reward sparsity 和 advantage vanishing 问题,在 7B 规模模型上实现 SOTA 多模态推理性能。

研究背景与动机

  1. GRPO 在多模态推理中广泛应用:GRPO 通过组内相对 advantage 估计实现无 critic 模型的长链推理训练,已成为增强 MLLM 推理能力的主流方法。
  2. Advantage vanishing 是核心瓶颈:当问题对当前模型过于简单或过于困难时,组内所有回答全对或全错,导致 advantage 为零,优化信号消失,训练效率骤降。
  3. Reward sparsity 加剧问题:在训练早期或面对困难问题时,只有极少数推理路径获得正奖励,正向反馈稀缺导致学习缓慢。
  4. 现有方法各有局限:(a) 样本增强扩展法(如添加 prompt、生成变体)未控制难度分布,可能加剧 advantage vanishing;(b) 选择性样本利用法丢弃部分数据,减少多样性;(c) 间接奖励设计法可能引入与最终目标不对齐的偏差。
  5. 难度动态变化被忽视:随着训练推进,模型能力增强,原本中等难度的问题变简单,advantage vanishing 持续恶化,但现有方法均未考虑难度的动态演变。
  6. 核心洞察:关键在于保证每个问题的组内奖励分布具有足够的方差,从而产生清晰的优化信号——这需要根据问题难度动态调整变体的难度分布。

方法详解

整体框架

DIVA-GRPO 由三个核心模块组成:(1) 基于历史 rollout 的动态难度评估;(2) 难度自适应的变体生成;(3) 难度加权的局部-全局 advantage 平衡与 reward-range 重缩放。训练时,先评估每个问题的难度,再根据难度采样不同类型的变体,最后在原始问题及其变体组成的扩展空间中计算 advantage 并更新策略。

关键设计 1:动态难度评估

  • 做什么:为每个训练问题维护一个动态难度分数 \(D_q \in [D_{\min}, D_{\max}]\),根据模型在该问题上的历史表现实时更新。
  • 核心思路:统计 rollout 的经验正确率 \(\alpha\),通过 \(D^{\text{new}} = \text{clip}(D^{\text{old}} + \eta \cdot (0.5 - \alpha))\) 更新难度——正确率高则难度降低,正确率低则难度升高,正确率约 50% 时保持稳定。
  • 设计动机:问题难度不是固有属性,而是相对于当前模型能力的动态量。通过每个 epoch 重新校准难度,确保变体生成策略始终与模型当前水平匹配,避免训练后期所有问题变简单导致的 advantage 消失。

关键设计 2:难度自适应变体生成

  • 做什么:根据问题难度等级,生成保持答案不变但难度不同的语义一致变体。
  • 核心思路:三级策略——
  • 简单问题 (\(D_q < D_{\text{mid}}\)):同时扰动文本和图像(旋转、噪声、模糊等),增大难度以产生负样本
  • 中等问题 (\(D_q \approx D_{\text{mid}}\)):仅生成文本改写变体,保持难度但增加表达多样性
  • 困难问题 (\(D_q > D_{\text{mid}}\)):添加部分推理步骤作为提示(think-step),降低难度以产生正样本
  • 设计动机:确保每个问题的变体组内同时包含正确和错误回答,使奖励分布具有足够方差,从根本上解决 advantage vanishing。

关键设计 3:难度加权的局部-全局 Advantage 平衡

  • 做什么:分别计算局部(单个问题组内)和全局(问题及其所有变体组内)advantage,通过 batch z-score 归一化和难度加权缩放合并。
  • 核心思路:先对局部和全局 advantage 分别做 batch-level z-score 归一化消除量级差异,再用 \(\hat{A} = \exp(k \cdot (D_q^{(i)} - \bar{D}_q) \cdot \text{sgn}(\tilde{A})) \cdot \tilde{A}\) 进行难度加权——对于高于平均难度的变体,放大正确回答的 advantage、抑制错误回答;反之亦然。
  • 设计动机:(1) 局部和全局 advantage 因样本量不同导致量级不一致(全局通常更大),归一化使两者可比;(2) 难度加权鼓励模型在困难问题上的正确答案获得更大收益,实现难度自适应优化。

损失函数与训练

  • 基础损失为标准 GRPO 策略梯度损失,advantage 替换为上述难度加权、归一化后的值
  • 额外引入 Reward-Range-Based Advantage Rescaling (RRB)\(\hat{A}_{\text{range}} = \Delta r_q \cdot \tilde{A}\),其中 \(\Delta r_q = (\max(\mathcal{R}_q) - \min(\mathcal{R}_q)) / R_{\max}\),防止奖励高度集中时 z-score 归一化放大微小差异
  • 基座模型 Qwen2.5-VL-7B-Instruct,AdamW 优化器,学习率 \(10^{-6}\),难度初始化 \(D_q=5\)(范围 1-9),\(\eta=4\)
  • 文本变体和推理提示由 GPT-o3 离线生成,图像扰动在线施加

实验关键数据

表1:六个多模态数学推理基准上的主实验结果

模型 MathVista MathVerse MathVision OlympiadBench WeMath MMK12test Avg.
GPT-4o 63.8 50.2 30.4 35.0 68.8 49.9 49.68
Qwen2.5-VL-7B (base) 68.2 47.9 25.4 20.2 62.1 53.6 46.23
Qwen2.5-VL-72B 74.8 57.6 38.1 40.4 72.4 70.5 59.0
R1-ShareVL-7B 73.5 52.8 29.5 21.3 67.9 68.8 52.30
MM-Eureka-7B 71.7 50.3 26.9 20.1 66.1 64.5 49.93
DIVA-GRPO-7B (Ours) 74.2 57.6 32.1 23.1 69.3 70.2 54.58
  • 7B 规模下六个基准均达 SOTA,平均 54.58 分
  • 在 MathVista/MathVerse/WeMath 上已接近 72B 级别模型
  • 相比基座 Qwen2.5-VL-7B 平均提升 +8.35

表2:消融实验结果

方法 MathVista MathVerse MMK12test Avg.
w/o Variant Generation 70.0 53.7 61.1 61.6
w/o Difficulty-Weighting 69.9 55.7 66.5 64.0
w/o RRB-Rescaling 71.5 55.2 64.7 63.8
w/o G-L Balance 70.8 55.4 66.0 64.1
Full DIVA-GRPO 73.2 56.3 68.8 66.1
  • 移除任一组件均导致性能下降,变体生成的影响最大(-4.5 avg)
  • 训练效率方面:达到最优性能所需步数减少 2.55×,端到端加速 1.76×

亮点

  • 问题定义精准:从"如何保证组内奖励方差充足"的角度统一理解 advantage vanishing,提供了比现有三类方法更本质的解决思路
  • 难度自适应闭环:难度评估→变体生成→advantage 加权形成完整闭环,且难度随训练动态演化
  • 理论支撑充分:提供了梯度方差降低加速收敛的定理证明,以及正负样本比约 1:1 时优化信号最强的数学分析
  • 训练效率显著提升:2.55× 步数减少 + 1.76× 端到端加速,实用价值高
  • RRB-Rescaling 通用性强:可独立于 DIVA-GRPO 应用到任何 GRPO 框架

局限性 / 可改进方向

  • 变体的文本推理提示依赖 GPT-o3 离线生成,引入了对闭源模型的依赖和额外成本
  • 在竞赛级数学任务(OlympiadBench 23.1 vs o1 的 68.0)上仍有很大差距,7B 模型容量限制明显
  • 图像扰动方式(旋转、噪声等)相对简单,对需要精细视觉理解的场景可能不够
  • 难度评估基于正确率,对于部分正确或推理过程正确但最终答案错误的情况缺乏区分

与相关工作的对比

  • vs GRPO/DAPO:标准 GRPO 和 DAPO 未考虑难度自适应,在训练后期 advantage 信号衰减;DIVA-GRPO 通过变体生成维持奖励方差
  • vs GSPO:GSPO 引入语义一致变体但未动态调整难度分布;DIVA-GRPO 根据模型当前能力动态匹配变体难度
  • vs Adora/MM-Eureka:这些方法通过样本选择或间接奖励缓解问题,但分别存在数据浪费和优化方向偏差的风险
  • vs R1-ShareVL:同为 7B 规模 SOTA 对手,DIVA-GRPO 在 MathVerse (+4.8) 和 MMK12test (+1.4) 上优势明显

评分

  • 新颖性: ⭐⭐⭐⭐ — 难度自适应变体生成+三级策略+RRB rescaling 组合新颖
  • 实验充分度: ⭐⭐⭐⭐ — 六个基准+详细消融+效率分析+理论证明,覆盖全面
  • 写作质量: ⭐⭐⭐⭐ — 问题阐述清晰,方法动机层层递进
  • 价值: ⭐⭐⭐⭐ — 解决 GRPO 训练的实际痛点,RRB 组件可即插即用