DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO¶

会议: NeurIPS 2025
arXiv: 2506.07464
代码: 有
领域: LLM/NLP / 视频理解 / 强化学习
关键词: VideoLLM, GRPO, reinforcement learning, video reasoning, Reg-GRPO, difficulty-aware augmentation

一句话总结¶

探索GRPO在VideoLLM中的应用，发现"安全门依赖"和"优势消失"两个阻碍有效学习的问题，提出Reg-GRPO（将GRPO loss重建为直接回归优势值的任务，消除clipping/min等安全门操作）和难度感知数据增强策略，在多个视频推理benchmark上显著提升性能。

背景与动机¶

GRPO在LLM推理（如数学、代码）中取得了R1级别的成功，但在VideoLLM中的效果尚未充分探索。视频推理任务相比文本推理更具挑战——需要时间理解、多帧关系推理等。直接将标准GRPO应用于VideoLLM面临两个新问题：(1) 过度依赖安全门机制（clipping和min操作）导致策略更新过于保守；(2) 组内奖励差异太小导致优势函数趋近于零（vanishing advantage），模型无法从中有效学习。

核心问题¶

如何让GRPO在VideoLLM中真正有效？标准GRPO的哪些设计在视频场景下失效？

方法详解¶

整体框架¶

DeepVideo-R1包含两个关键改进：Reg-GRPO改善优化目标，难度感知数据增强改善训练数据。

关键设计¶

Reg-GRPO（Regressive GRPO）：将GRPO的策略优化loss从PPO风格（带clipping/min的比率优化）重新建模为直接回归任务——模型预测每个输出的优势值（advantage），loss是预测优势与实际优势的回归差异。这消除了clipping和min等安全门操作，让模型更直接地与优势信号对齐，提供更清晰的梯度引导。
难度感知数据增强：标准GRPO中如果所有rollout都答对或都答错（组内奖励方差为零），优势消失无法学习。通过对输入prompt/视频进行增强（如改变问题难度、遮挡部分视频帧等），确保组内既有成功也有失败的rollout——产生多样化的奖励信号。增强时目标是"可解决的难度"——不太简单也不太难。

损失函数 / 训练策略¶

Reg-GRPO loss = 优势回归loss，替代标准GRPO的PPO-style loss。

实验关键数据¶

在多个视频推理benchmark上显著优于标准GRPO训练的VideoLLM
Reg-GRPO解决了优势消失问题——训练更稳定
难度感知增强提供了更丰富的学习信号
两个改进叠加效果最佳

消融实验要点¶

Reg-GRPO > 标准GRPO（消除安全门的效果明显）
难度感知增强 > 无增强（解决vanishing advantage）
两者联合 > 任一单独

亮点¶

首次系统探索GRPO在VideoLLM中的应用并识别了具体失效模式
Reg-GRPO将PPO风格loss化简为回归——更直接、更稳定——可能对其他RL for LLM场景也有启发
难度感知增强与NoisyRollout的思路类似——都是通过输入变换改善RL探索——但NoisyRollout扰动视觉输入，DeepVideo-R1调整任务难度
与GTR的发现互补：GTR聚焦thought collapse（推理崩塌），DeepVideo-R1聚焦vanishing advantage（学习信号消失）

局限性 / 可改进方向¶

Reg-GRPO的理论收敛保证未提供
难度感知增强的策略可能需要任务特定调优
仅在视频推理任务验证，其他视频任务（如视频描述）未测试

与相关工作的对比¶

vs. NoisyRollout：NoisyRollout扰动图像增加感知多样性；DeepVideo-R1调整难度增加奖励多样性——互补
vs. GTR：GTR用过程引导防止thought collapse；DeepVideo-R1用Reg-GRPO解决vanishing advantage——不同failure mode

评分¶

新颖性: ⭐⭐⭐⭐ Reg-GRPO和vanishing advantage的识别有价值
实验充分度: ⭐⭐⭐⭐ 多benchmark验证，消融详尽
写作质量: ⭐⭐⭐⭐ 问题诊断→解法的逻辑清晰
价值: ⭐⭐⭐⭐ VideoLLM RL训练的重要改进