LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding¶

会议: CVPR2026 arXiv: 2602.20913 代码: qiujihao19/LongVideo-R1 领域: 视频理解 关键词: 长视频理解, 智能导航, 多模态Agent, 层次化推理, 强化学习, Chain-of-Thought

一句话总结¶

提出 LongVideo-R1，一个配备推理能力的多模态 Agent，通过层次化视频树结构和智能导航策略，以平均仅 10.5 轮工具调用实现高效长视频问答，在精度-效率权衡上显著优于穷举式方法。

背景与动机¶

长视频理解的计算瓶颈：当前 MLLM 受限于有限上下文窗口，无法直接处理 1-2 小时的长视频，只能依赖暴力管线（切片→逐段处理→汇总），计算开销随视频时长线性增长
现有方法效率低下：Ego-R1、VideoTree 等方法虽然准确率不错，但需要穷举处理所有或大量视频片段（如 Ego-R1 每 30 秒做一次 caption，平均需要 86 个 caption 段），延迟高昂
实际部署受限：高计算成本严重制约了长视频 MLLM 在具身 Agent（需低延迟响应）和高吞吐视频聊天服务等真实场景的落地
精度-效率权衡被忽视：现有工作几乎只优化 QA 准确率，缺乏对计算预算的形式化度量和优化
人类搜索策略的启发：人类理解长视频时并非逐帧观看，而是先看整体概要、再根据问题定向"钻进"感兴趣的片段——这种主动、目标导向的策略远比穷举高效
大推理模型的成熟：LRM（如 Qwen3-8B）和 CoT 推理范式为训练能自主判断"何时停、往哪看"的 Agent 提供了技术基础

方法详解¶

整体框架¶

LongVideo-R1 将长视频组织为 多层树结构，深度 \(D=3\)，每个非叶节点有 \(K = \text{round}(\sqrt[D]{T/16s})\) 个子节点，叶节点对应约 16 秒的短片段。Agent 由一个 LRM（Qwen3-8B 微调）驱动，配合两个多模态工具进行 Chain-of-Thought-with-Tool（CoTwT）推理。

核心设计¶

两个多模态工具：

video_cap()：接收任意层级视频片段，输出文本描述（由 Qwen2.5-VL-72B 生成），用于获取全局/局部上下文
video_qa()：仅在叶节点调用（由 Qwen2.5-VL-32B 执行），针对具体问题生成最终答案

推理流程：

从根节点（整个视频）获取顶层 caption
LRM 根据当前累积上下文进行推理，判断信息是否足够回答问题
若不够，LRM 决定下一步导航方向：向下钻入子片段、横向遍历兄弟节点、或回溯上层重新定位
调用 video_cap() 获取目标片段描述，更新对话历史
重复步骤 2-4，直到 LRM 认为信息充足，调用 video_qa() 生成答案，或达到最大轮次

整个推理过程仅涉及纯文本（多模态工具作为外部函数调用），使得 LRM 可专注于规划和推理。

数据构建¶

基于 CG-Bench（含 clue-grounded QA 标注）的 800 个视频、5.6K QA 对
用 Qwen2.5-VL-72B 预提取各层视频 caption（256/128/64/32 帧采样）
用 GPT-5 零样本生成 CoTwT 推理轨迹；失败时利用 CG-Bench 的 clue-grounded 标注逐级提示，确保正确性的同时最小化信息泄露
最终获得 5.6K 轨迹（平均 5.8 步），展开为约 33K 条 SFT 训练样本

训练流程¶

阶段一：SFT 冷启动 — 在 Qwen3-8B 上微调 3 个 epoch，学习 <think>...</think> + <tool>...</tool> + <answer>...</answer> 的结构化推理格式

阶段二：GRPO 强化学习 — 2 个 epoch，使用复合奖励函数：

\[R = w_{\text{ans}} \cdot r_{\text{ans}} + w_{\text{loc}} \cdot r_{\text{loc}} + w_{\text{repeat}} \cdot r_{\text{repeat}}\]

\(r_{\text{ans}}\)（答案奖励）：答案正确为 1，否则为 0
\(r_{\text{loc}}\)（定位奖励）：用 F1 指标衡量模型访问的时间段与 GT 关键段的覆盖率和精确率，鼓励精准定位同时惩罚冗余探索
\(r_{\text{repeat}}\)（重复惩罚）：惩罚重复访问相同片段，减少浪费

实验关键数据¶

主要结果¶

基准	LongVideo-R1	LongVideo-R1 (new)	最佳对比方法
LVBench 总体	50.0%	60.7%	AdaReTake-72B: 53.3%
LVBench-TG（时序定位）	56.4%	62.7%	AdaReTake-72B: 45.5%
LVBench-KIR（关键信息检索）	56.4%	70.1%	AdaReTake-72B: 62.2%
MLVU	68.1%	71.3%	VideoChat-Flash-7B: 74.7%
Video-MME-Long (w/ sub)	64.4%	68.6%	Ego-R1: 64.9%

在 LVBench 上，8B 模型 LongVideo-R1 超越 GPT-4o（48.9%）和 GLM-4V-plus（48.7%）
时序定位（TG）子任务达 56.4%，领先第二名 10.9 个百分点
升级 caption 工具为 Qwen3-VL-32B-Instruct 后，总体准确率提升至 60.7%

效率对比¶

指标	LongVideo-R1	Ego-R1
Video-MME 平均 caption 段数	10.5 轮	86 段
LVBench 每题耗时	~3 分钟	显著更长

消融实验¶

消融项	LVBench	Video-MME/L
SFT only (10K)	39.1%	57.7%
SFT only (full 33K)	41.6%	59.2%
+ RL (10K data)	47.4%	60.2%
+ RL (full data, 完整模型)	50.0%	64.4%
去掉 \(r_{\text{loc}}\)	45.8%	61.4%

SFT 数据量从 10K→33K：LVBench +2.5%；加 RL 后 +8.4%
定位奖励 \(r_{\text{loc}}\) 贡献：LVBench +4.2%，Video-MME +3.0%
最大轮次从 10→30：LVBench 43.0%→50.0%，但耗时从 104s→176s

亮点¶

问题定义有价值：首次形式化"低计算预算下的长视频理解"问题，提出精度-效率 Pareto 最优的研究方向
设计直觉优雅：层次化视频树 + 主动推理导航，模拟人类"先整体后局部"的视频理解策略
效率优势显著：平均 10.5 轮即可完成 QA，仅为 Ego-R1 的 ~1/8 计算量，且在精度上持平或更优
超长视频能力：在数十小时级电视剧上仍能以 10-20 轮完成 QA，线性扫描方法在此场景下不可行
数据构建策略巧妙：利用 CG-Bench 的 grounding 标注逐级提示 GPT-5，在保证正确性的同时最小化 hint 泄露
全开源：LRM 基于 Qwen3-8B，工具基于 Qwen2.5-VL 系列，完全可本地部署

局限性 / 可改进方向¶

均匀切分非最优：视频树采用等长分割，语义相似内容可能落入相邻子片段，增加定位歧义
工具种类单一：仅有 caption 和 QA 两个工具，缺少实例识别、片段分割等细粒度工具
对全局性问题不占优：MLVU（含短视频）和 Video-MME（含"视频主旨"类全局问题）上不如均匀采样方法，因为这类问题不需要精准定位
导航可能被误导：LRM 有时被语义相关但无关的片段"吸引"而陷入错误区域，需人工 hint 才能修正
单问题假设：假设每个 QA 独立处理，未考虑多问题共享视频索引以分摊开头开销的场景
caption 质量依赖：框架性能高度依赖视频描述工具的质量，描述不准确会导致推理错误传播

评分¶

新颖性: ⭐⭐⭐⭐ — "低成本长视频理解"的问题定义和层次化主动导航框架有明确新意
实验充分度: ⭐⭐⭐⭐ — 三个主流 benchmark + 超长视频案例 + 多维消融（数据量/奖励/工具规模/最大轮次）
写作质量: ⭐⭐⭐⭐ — 动机清晰、方法描述完整、算法伪代码规范
价值: ⭐⭐⭐⭐⭐ — 解决了长视频 Agent 最核心的效率痛点，开源可复现，对实际部署有直接意义

方法	类型	LVBench	计算方式	局限
VideoAgent	Agent	29.3%	穷举+GPT	准确率低
VideoTree	Agent	28.8%	树形穷举	线性复杂度
MemVid	Agent	44.4%	记忆增强	部分子任务弱
Ego-R1	Agent+RL	~64.9%(VME)	每30s caption	高计算成本
AdaReTake-72B	MLLM	53.3%	自适应采样	72B大模型
LongVideo-R1	Agent+RL	50.0%	~10轮导航	全局问题弱