Scaling RL to Long Videos¶

会议: NeurIPS 2025
arXiv: 2507.07966
代码: GitHub
领域: 视频理解
关键词: 长视频推理, 强化学习, 视觉语言模型, 序列并行, 链式思维

一句话总结¶

提出 LongVILA-R1 全栈框架，通过 104K 长视频推理数据集、两阶段 CoT-SFT + RL 训练管线、以及 MR-SP 多模态强化序列并行系统，将 VLM 的推理能力扩展到长视频（最高 8192 帧），在 VideoMME 上达到 65.1%/71.1%。

研究背景与动机¶

领域现状: 长视频理解需要时间、空间、目标导向和叙事推理能力。GPT-4o、Gemini-1.5-Pro 等闭源模型展现了强大能力，开源 VLM 在短视频上也取得进展。
现有痛点: (1) 缺乏高质量长视频推理数据集——不同于数学/代码推理有结构化标注，长视频推理需标注复杂时间动态和叙事元素。(2) 长视频 RL 训练框架困难——处理成百上千帧导致巨大内存和超长 rollout 时间。
核心矛盾: 现有 RL 框架（如 R1-V、EasyR1）不是为长视频设计的，GRPO 的组采样在长上下文下计算成本极高，且视觉编码需要重复计算。
本文目标: 全栈解决长视频推理的数据、训练方法和训练系统三大挑战。
切入角度: 数据端通过 NVILA-8B + DeepSeek-R1-671B 自动生成长视频 CoT 标注；系统端通过序列并行和视频嵌入缓存加速 RL 训练。
核心 idea: 缓存视频嵌入 + 序列并行使长视频 RL 训练成为可能，而高质量 CoT 数据和难度过滤是推理能力涌现的关键。

方法详解¶

整体框架¶

三大组件： 1. LongVideo-Reason 数据集: 104K QA 对，18K 长视频 2. 两阶段训练: Stage-1 CoT-SFT (36K) → Stage-2 GRPO RL (68K+102K) 3. MR-SP 训练系统: 序列并行 + 嵌入缓存

关键设计¶

1. LongVideo-Reason 数据构建

功能: 提供大规模高质量长视频推理标注
核心思路: 将视频切为 ~10s 片段 → NVILA-8B 生成描述 → 汇总所有片段描述 → DeepSeek-R1-671B 基于全视频描述生成 Question-Reasoning-Answer 对。四种推理类型：时间推理、目标/目的推理、空间推理、叙事推理。数据过滤：对每个问题推理 10 次，太简单（全对）和太难（全错）的过滤掉，只保留中等难度（GRPO 需要 rollout 多样性）。
设计动机: GRPO 对批采样敏感——若所有 rollout 全对或全错则梯度消失，需要适当难度的数据。

2. MR-SP 多模态强化序列并行

功能: 使长视频 RL 训练可行且高效
核心思路:
- Stage 1 - Rollout 并行编码: 视频帧均匀分配到多个 GPU，各自独立编码，all-gather 汇聚嵌入。关键优化：缓存并复用视频嵌入，避免 8-16 次 rollout 中重复编码。
- Stage 2 - Prefilling 序列并行: 对 policy/reference model 的 prefilling 操作做序列并行——将全局嵌入 padding 到统一长度后按 GPU 分片，各 GPU 只计算部分 token 的 logits。
设计动机: 长视频产生海量 visual token（\(10^4\)-\(10^5\)），单 GPU 无法容纳。嵌入缓存避免 \(G\) 次（rollout 数）的重复编码。

3. 两阶段训练策略

功能: 先建立推理能力基础，再通过 RL 扩展
核心思路: Stage-1 用 36K 高质量 CoT 数据做 SFT（格式为 <think></think><answer></answer>），使模型具备基本推理和指令跟随能力。Stage-2 用 68K 数据 + 102K 开源数据做 GRPO（准确率+格式的规则奖励），扩展推理能力。
设计动机: 直接做 RL（跳过 SFT）性能下降，SFT 提供必要的推理 warm-up。

损失函数 / 训练策略¶

Stage-1: 标准 SFT 交叉熵损失
Stage-2: GRPO 目标 \(\mathcal{J}(\theta)\)，包含 clip 操作和 KL 正则。组 \(G=8\)，优势 \(A_i\) 通过组内标准化计算
奖励: 规则基础（格式正确性 + 答案准确性）

实验关键数据¶

主实验¶

VideoMME 基准

模型	w/o sub	Short	Medium	Long	w/ sub
LongVILA-7B	60.1	69.0	58.3	53.0	65.1
LongVILA-R1-7B	65.1	76.8	63.2	55.2	71.1
Video-R1-7B	61.4	-	-	-	-
Gemini-1.5-Pro	75.0	-	-	-	81.3
LLaVA-Video-7B	63.3	-	-	-	69.7

LongVideo-Reason-eval

模型	Temporal	Goal	Plot	Spatial	Overall
Video-R1-7B	61.4	85.0	62.0	58.5	68.1
Gemini-1.5-Pro	65.4	81.9	67.8	53.3	69.3
LongVILA-7B	58.0	80.2	57.1	46.7	62.7
LongVILA-R1-7B	68.1	85.7	70.6	53.3	72.0

消融实验¶

设置	CoT-SFT	RL 数据	LongVideo-Reason-eval
仅 Base	✗	✗	62.7
仅 SFT	✓ 本文数据	✗	提升显著
跳过 SFT 直接 RL	✗	✓	性能下降
完整管线	✓	✓	72.0

MR-SP 训练效率（8×A100, LongVILA-7B）

帧数	无 MR-SP	MR-SP Stage 1	完整 MR-SP
256	正常	加速	加速
512	慢	加速但 OOM	2.1× 加速
1024	OOM	OOM	可运行

关键发现¶

RL 带来的推理能力随帧数增加持续提升（LongVILA-R1 在 16→512 帧持续增长，而 LongVILA 在 256 帧后饱和甚至下降）
MR-SP 在 512 帧时实现 2.1× 加速，且是 1024 帧能跑的唯一方案
CoT-SFT 是 RL 的必要前置——跳过则性能下降
在单个 A100 节点即可支持小时级视频（3600 帧）的 RL 训练

亮点与洞察¶

全栈方案：数据→训练→系统全部自洽
MR-SP 使长视频 RL 从不可能变为实际可行，嵌入缓存避免 \(G\) 倍重复编码是关键优化
数据过滤策略（去掉太简单/太难的）对 GRPO 至关重要——理论上梯度消失条件的实践解答
推理能力随帧数的持续提升验证了长视频 RL 的价值

局限与展望¶

数据生成消耗约 80,000 H100 GPU 小时，成本极高
推理依赖分段描述→LLM 生成推理，可能引入 caption 噪声
目前仅验证了 7B 规模模型，更大规模的效果未知
空间推理（Spatial）指标提升有限（53.3%），是已知弱项

评分¶

新颖性: ⭐⭐⭐⭐ 全栈整合而非单点突破，MR-SP 系统贡献显著
实验充分度: ⭐⭐⭐⭐⭐ 多基准对比、消融充分、训练效率量化完整
写作质量: ⭐⭐⭐⭐ 内容密集但组织清晰
价值: ⭐⭐⭐⭐⭐ 为长视频 VLM 推理提供了可复现的完整方案，开源系统价值大