LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding¶
会议: CVPR2026 arXiv: 2602.20913 代码: qiujihao19/LongVideo-R1 领域: 视频理解 关键词: 长视频理解, 智能导航, 多模态Agent, 层次化推理, 强化学习, Chain-of-Thought
一句话总结¶
提出 LongVideo-R1,一个配备推理能力的多模态 Agent,通过层次化视频树结构和智能导航策略,以平均仅 10.5 轮工具调用实现高效长视频问答,在精度-效率权衡上显著优于穷举式方法。
背景与动机¶
- 长视频理解的计算瓶颈:当前 MLLM 受限于有限上下文窗口,无法直接处理 1-2 小时的长视频,只能依赖暴力管线(切片→逐段处理→汇总),计算开销随视频时长线性增长
- 现有方法效率低下:Ego-R1、VideoTree 等方法虽然准确率不错,但需要穷举处理所有或大量视频片段(如 Ego-R1 每 30 秒做一次 caption,平均需要 86 个 caption 段),延迟高昂
- 实际部署受限:高计算成本严重制约了长视频 MLLM 在具身 Agent(需低延迟响应)和高吞吐视频聊天服务等真实场景的落地
- 精度-效率权衡被忽视:现有工作几乎只优化 QA 准确率,缺乏对计算预算的形式化度量和优化
- 人类搜索策略的启发:人类理解长视频时并非逐帧观看,而是先看整体概要、再根据问题定向"钻进"感兴趣的片段——这种主动、目标导向的策略远比穷举高效
- 大推理模型的成熟:LRM(如 Qwen3-8B)和 CoT 推理范式为训练能自主判断"何时停、往哪看"的 Agent 提供了技术基础
方法详解¶
整体框架¶
LongVideo-R1 将长视频组织为 多层树结构,深度 \(D=3\),每个非叶节点有 \(K = \text{round}(\sqrt[D]{T/16s})\) 个子节点,叶节点对应约 16 秒的短片段。Agent 由一个 LRM(Qwen3-8B 微调)驱动,配合两个多模态工具进行 Chain-of-Thought-with-Tool(CoTwT)推理。
核心设计¶
两个多模态工具:
video_cap():接收任意层级视频片段,输出文本描述(由 Qwen2.5-VL-72B 生成),用于获取全局/局部上下文video_qa():仅在叶节点调用(由 Qwen2.5-VL-32B 执行),针对具体问题生成最终答案
推理流程:
- 从根节点(整个视频)获取顶层 caption
- LRM 根据当前累积上下文进行推理,判断信息是否足够回答问题
- 若不够,LRM 决定下一步导航方向:向下钻入子片段、横向遍历兄弟节点、或回溯上层重新定位
- 调用
video_cap()获取目标片段描述,更新对话历史 - 重复步骤 2-4,直到 LRM 认为信息充足,调用
video_qa()生成答案,或达到最大轮次
整个推理过程仅涉及纯文本(多模态工具作为外部函数调用),使得 LRM 可专注于规划和推理。
数据构建¶
- 基于 CG-Bench(含 clue-grounded QA 标注)的 800 个视频、5.6K QA 对
- 用 Qwen2.5-VL-72B 预提取各层视频 caption(256/128/64/32 帧采样)
- 用 GPT-5 零样本生成 CoTwT 推理轨迹;失败时利用 CG-Bench 的 clue-grounded 标注逐级提示,确保正确性的同时最小化信息泄露
- 最终获得 5.6K 轨迹(平均 5.8 步),展开为约 33K 条 SFT 训练样本
训练流程¶
阶段一:SFT 冷启动 — 在 Qwen3-8B 上微调 3 个 epoch,学习 <think>...</think> + <tool>...</tool> + <answer>...</answer> 的结构化推理格式
阶段二:GRPO 强化学习 — 2 个 epoch,使用复合奖励函数:
\[R = w_{\text{ans}} \cdot r_{\text{ans}} + w_{\text{loc}} \cdot r_{\text{loc}} + w_{\text{repeat}} \cdot r_{\text{repeat}}\]
- \(r_{\text{ans}}\)(答案奖励):答案正确为 1,否则为 0
- \(r_{\text{loc}}\)(定位奖励):用 F1 指标衡量模型访问的时间段与 GT 关键段的覆盖率和精确率,鼓励精准定位同时惩罚冗余探索
- \(r_{\text{repeat}}\)(重复惩罚):惩罚重复访问相同片段,减少浪费
实验关键数据¶
主要结果¶
| 基准 | LongVideo-R1 | LongVideo-R1 (new) | 最佳对比方法 |
|---|---|---|---|
| LVBench 总体 | 50.0% | 60.7% | AdaReTake-72B: 53.3% |
| LVBench-TG(时序定位) | 56.4% | 62.7% | AdaReTake-72B: 45.5% |
| LVBench-KIR(关键信息检索) | 56.4% | 70.1% | AdaReTake-72B: 62.2% |
| MLVU | 68.1% | 71.3% | VideoChat-Flash-7B: 74.7% |
| Video-MME-Long (w/ sub) | 64.4% | 68.6% | Ego-R1: 64.9% |
- 在 LVBench 上,8B 模型 LongVideo-R1 超越 GPT-4o(48.9%)和 GLM-4V-plus(48.7%)
- 时序定位(TG)子任务达 56.4%,领先第二名 10.9 个百分点
- 升级 caption 工具为 Qwen3-VL-32B-Instruct 后,总体准确率提升至 60.7%
效率对比¶
| 指标 | LongVideo-R1 | Ego-R1 |
|---|---|---|
| Video-MME 平均 caption 段数 | 10.5 轮 | 86 段 |
| LVBench 每题耗时 | ~3 分钟 | 显著更长 |
消融实验¶
| 消融项 | LVBench | Video-MME/L |
|---|---|---|
| SFT only (10K) | 39.1% | 57.7% |
| SFT only (full 33K) | 41.6% | 59.2% |
| + RL (10K data) | 47.4% | 60.2% |
| + RL (full data, 完整模型) | 50.0% | 64.4% |
| 去掉 \(r_{\text{loc}}\) | 45.8% | 61.4% |
- SFT 数据量从 10K→33K:LVBench +2.5%;加 RL 后 +8.4%
- 定位奖励 \(r_{\text{loc}}\) 贡献:LVBench +4.2%,Video-MME +3.0%
- 最大轮次从 10→30:LVBench 43.0%→50.0%,但耗时从 104s→176s
亮点¶
- 问题定义有价值:首次形式化"低计算预算下的长视频理解"问题,提出精度-效率 Pareto 最优的研究方向
- 设计直觉优雅:层次化视频树 + 主动推理导航,模拟人类"先整体后局部"的视频理解策略
- 效率优势显著:平均 10.5 轮即可完成 QA,仅为 Ego-R1 的 ~1/8 计算量,且在精度上持平或更优
- 超长视频能力:在数十小时级电视剧上仍能以 10-20 轮完成 QA,线性扫描方法在此场景下不可行
- 数据构建策略巧妙:利用 CG-Bench 的 grounding 标注逐级提示 GPT-5,在保证正确性的同时最小化 hint 泄露
- 全开源:LRM 基于 Qwen3-8B,工具基于 Qwen2.5-VL 系列,完全可本地部署
局限性 / 可改进方向¶
- 均匀切分非最优:视频树采用等长分割,语义相似内容可能落入相邻子片段,增加定位歧义
- 工具种类单一:仅有 caption 和 QA 两个工具,缺少实例识别、片段分割等细粒度工具
- 对全局性问题不占优:MLVU(含短视频)和 Video-MME(含"视频主旨"类全局问题)上不如均匀采样方法,因为这类问题不需要精准定位
- 导航可能被误导:LRM 有时被语义相关但无关的片段"吸引"而陷入错误区域,需人工 hint 才能修正
- 单问题假设:假设每个 QA 独立处理,未考虑多问题共享视频索引以分摊开头开销的场景
- caption 质量依赖:框架性能高度依赖视频描述工具的质量,描述不准确会导致推理错误传播
相关工作对比¶
| 方法 | 类型 | LVBench | 计算方式 | 局限 |
|---|---|---|---|---|
| VideoAgent | Agent | 29.3% | 穷举+GPT | 准确率低 |
| VideoTree | Agent | 28.8% | 树形穷举 | 线性复杂度 |
| MemVid | Agent | 44.4% | 记忆增强 | 部分子任务弱 |
| Ego-R1 | Agent+RL | ~64.9%(VME) | 每30s caption | 高计算成本 |
| AdaReTake-72B | MLLM | 53.3% | 自适应采样 | 72B大模型 |
| LongVideo-R1 | Agent+RL | 50.0% | ~10轮导航 | 全局问题弱 |
评分¶
- 新颖性: ⭐⭐⭐⭐ — "低成本长视频理解"的问题定义和层次化主动导航框架有明确新意
- 实验充分度: ⭐⭐⭐⭐ — 三个主流 benchmark + 超长视频案例 + 多维消融(数据量/奖励/工具规模/最大轮次)
- 写作质量: ⭐⭐⭐⭐ — 动机清晰、方法描述完整、算法伪代码规范
- 价值: ⭐⭐⭐⭐⭐ — 解决了长视频 Agent 最核心的效率痛点,开源可复现,对实际部署有直接意义