VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice¶
会议: CVPR 2026
arXiv: 2601.05175
代码: https://ivul-kaust.github.io/projects/videoauto-r1 (有)
领域: 视频理解 / LLM推理
关键词: 视频推理、自适应思考、链式推理、强化学习、推理效率
一句话总结¶
提出 VideoAuto-R1,一个"按需推理"的视频理解框架:训练时采用"思考一次、回答两次"(answer→think→answer)范式,推理时通过首次回答的置信度决定是否启动 CoT 推理,在保持 SOTA 精度的同时将平均响应长度从 149 降至 44 token(约 3.3 倍压缩)。
研究背景与动机¶
-
领域现状:CoT(链式推理)已成为提升多模态大语言模型视频理解能力的主要手段。Video-R1、Time-R1、VideoChat-R1 等模型基于 GRPO 强化学习训练,让模型在回答前进行逐步推理。这些方法在数学/编程等符号化任务上效果显著。
-
现有痛点:(a) 视频理解本质上更依赖视觉感知而非逐步推理,一旦感知准确,后续符号推理通常很浅;(b) 强制所有样本都进行 CoT 推理导致大量冗余 token(Video-R1 平均 386 token),显著增加延迟和推理成本;(c) 令人惊讶的是,对于 RL 训练的视频推理模型,直接回答在多个基准上表现与 CoT 持平甚至更好。
-
核心矛盾:CoT 推理具有计算开销但在视频理解中收益有限——在感知密集型任务(如物体/动作识别)上冗余甚至有害(过度思考),仅在少数需要多步推导的任务(如 VideoMMMU 中的物理/数学推导)上有明显优势。
-
本文目标:设计一个能自适应决定"是否需要推理"的视频理解模型——简单问题直接回答,复杂问题才启动 CoT。
-
切入角度:作者首先系统性地证明了现有视频推理模型(Video-R1、Time-R1、VideoChat-R1)在直接回答和 CoT 模式下的表现差异(Table 1),发现 CoT 在 VideoMME、LongVideoBench 上甚至降低精度。这一发现为"按需推理"提供了强有力的动机。
-
核心 idea:训练时让模型同时生成直接答案和推理后答案(双答案 GRPO),推理时用首次答案的 token 置信度决定是否继续生成推理链,实现自适应 auto-thinking。
方法详解¶
整体框架¶
训练阶段:给定问题,模型生成格式为 \boxed{a1}<think>r</think>\boxed{a2} 的响应,其中 \(a_1\) 是初始答案,\(r\) 是推理过程,\(a_2\) 是审查后答案。两个答案都被可验证奖励监督。推理阶段:模型先解码到 \(a_1\),计算其 token 级置信度;若超过阈值 \(\tau\),直接终止解码(early exit);否则继续生成推理链和 \(a_2\)。
关键设计¶
-
"思考一次、回答两次"训练范式:
- 功能:让模型在同一个生成过程中同时学会直接回答和推理后回答
- 核心思路:不像传统 auto-thinking 方法需要为每个样本标注"需要/不需要思考",本文让模型始终生成两个答案。系统提示要求先输出初始答案(不含分析),然后在
<think>中推理,最后输出审查后答案。如果模型无法在不推理的情况下回答,允许在第一个 box 中输出回退字符串"Let's analyze the problem step by step"。 - 设计动机:消除了逐样本"think/no-think"标签的需求,避免了训练中模式崩塌(always think 或 never think)的风险。模型只需学会让两个答案都正确即可。
-
双答案奖励的 GRPO 训练:
- 功能:同时激励直接答案和推理后答案的正确性
- 核心思路:总奖励为 \(R = w_1 R_{\text{task}}^{(1)}(a_1) + w_2 R_{\text{task}}^{(2)}(a_2) + \lambda R_{\text{fmt}} + \alpha R_{\text{fallback}}\),其中 \(w_2 > w_1\)(本文 \(w_1=0.9, w_2=1.1\)),给审查后答案更高的权重以鼓励模型通过推理改进。\(R_{\text{fallback}}\) 是当 \(a_1\) 使用回退字符串但 \(a_2\) 正确时的额外奖励,防止在难题上低置信猜测。GRPO 采用 16 个 rollout,温度 1.0。
- 设计动机:更高的 \(w_2\) 确保模型通过推理改善答案的行为得到奖励;同时 \(w_1 > 0\) 保证初始答案也被训练,使早期退出有效。fallback 机制解决了数学/符号密集型问题中无法直觉回答的场景。
-
基于置信度的 Early Exit 推理策略:
- 功能:在推理时自适应决定是否继续生成 CoT
- 核心思路:解码完第一个
\boxed{a1}后,计算答案 token 的长度归一化平均 log 概率作为置信度分数:\(s(a_1) = \frac{1}{L}\sum_{\ell=1}^L \log p_\theta(t_\ell | t_{<\ell}, q)\)。若 \(s(a_1) \geq \log \tau\)(\(\tau=0.97\)),则接受 \(a_1\) 并终止解码;否则继续生成推理链和 \(a_2\)。回退字符串的置信度设为 \(-\infty\),强制继续。 - 设计动机:token 级置信度与答案正确性有强相关性(Table 9 验证),可以精确判断哪些样本需要推理。由于 \(a_1\) 通常不超过 10 个 token,置信度计算几乎零开销。这种方式将训练目标(学会双答案)和推理策略(何时思考)完全解耦。
损失函数 / 训练策略¶
- 基础模型:Qwen2.5-VL-7B-Instruct 和 Qwen3-VL-8B-Instruct
- 直接 RL 无冷启动 SFT(实验发现在 Video-R1-CoT 数据上做 SFT 反而降低基线性能)
- 训练数据:83K 样本,包含文本/图像数学科学问题 + 视频 QA + 时序定位
- 视觉编码器冻结,只训练 projector 和 LLM
- 32 张 H100 GPU 训练约 35 小时
- 推理:贪心解码,最大响应 4096 token,\(\tau=0.97\)
实验关键数据¶
主实验(视频 QA)¶
| 模型 | 推理模式 | 响应长度 | VideoMME | MVBench | VideoMMMU | MVP |
|---|---|---|---|---|---|---|
| Qwen2.5-VL-7B | Direct | 3.0 | 66.0 | 67.1 | 54.7 | 36.5 |
| Video-R1 | Think-Only | 386 | 61.8 | 65.5 | 51.4 | 33.0 |
| VideoChat-R1.5 | Think-Only | 133 | 65.2 | 70.6 | 49.6 | 38.6 |
| VideoAuto-R1 (2.5VL) | AutoThink | 44 | 67.3 | 71.0 | 58.6 | 39.4 |
| VideoAuto-R1 (Q3VL) | AutoThink | 52 | 71.7 | 72.0 | 65.0 | 43.0 |
时序定位实验¶
| 模型 | Charades-STA mIoU | ActivityNet mIoU | NExT-GQA Acc |
|---|---|---|---|
| Qwen2.5-VL-7B | 52.9 | 26.9 | 53.3 |
| Time-R1 | 58.8 | 52.1 | - |
| VideoChat-R1.5 | 60.6 | 35.3 | - |
| VideoAuto-R1 (2.5VL) | 60.0 | 47.6 | 80.6 |
| VideoAuto-R1 (Q3VL) | 63.7 | 56.1 | 82.6 |
关键发现¶
- Think ratio 自适应调节:感知型基准 MVBench 上 think ratio 仅 25%,推理密集型 VideoMMMU 上升到 51%,表明模型确实学会了按需推理。Qwen3-VL 版本的 VideoMMMU think ratio 达 53%。
- 直接回答 vs CoT 的反直觉发现:现有视频推理模型(Video-R1、Time-R1、VideoChat-R1)在 VideoMME 和 LongVideoBench 上 CoT 推理反而降低 1-2 个点,仅在 VideoMMMU 上 CoT 一致胜出。
- 时序定位任务不需要 CoT:在 Charades-STA 和 ActivityNet 上,初始 boxed 答案已足够精确,后续 CoT 主要起解释作用,因此默认 early exit。
- 3.3 倍效率提升:平均响应长度从 Video-R1 的 386 token 降至 44 token(Qwen2.5-VL 版本),显著减少推理延迟。
- 无冷启动 SFT 更优:早期实验发现在 Video-R1-CoT 数据上做 SFT 反而损害基线性能,直接 RL 更稳定。
亮点与洞察¶
- "answer→think→answer"模板是核心创新:通过让模型在同一生成中产出两个答案,优雅地解决了 auto-thinking 中"训练时如何标注样本需要/不需要思考"的难题。无需额外的 switch token、mode head 或冷启动 SFT,训练极为简洁。这种设计可迁移到任何需要自适应推理的场景。
- 置信度 early exit 简单有效:不需要训练额外的分类器来判断是否推理,直接利用模型自身的 token log probability,几乎零成本。这一思路可用于任何 LLM 的推理效率优化。
- 视频理解中 CoT 的反直觉发现:系统性证明了视频推理模型 CoT 在多数感知任务上无益甚至有害,这一洞察值得整个领域关注——不是所有任务都需要 System 2 思考。
局限与展望¶
- 阈值 \(\tau\) 固定:当前使用单一固定阈值 \(\tau=0.97\) 在所有基准上通用,但可能不是对所有任务类型最优。动态调节阈值可能进一步提升效果。
- 双答案训练增加 token 消耗:GRPO 训练时每次 rollout 都要生成完整的 answer-think-answer 序列,训练时的 token 消耗高于只训练直接回答。
- 回退机制的设计相对简单:当前回退字符串是固定文本,更灵活的回退策略(如渐进式推理深度)可能进一步提升。
- 仅验证在 Qwen2.5-VL/Qwen3-VL 上:是否可推广到其他视频 LLM 架构尚不清楚。
相关工作与启发¶
- vs Video-R1: Video-R1 强制所有样本 CoT,平均 386 token,在 VideoMME 上 61.8%;VideoAuto-R1 仅 44 token 即达 67.3%,效率和精度双赢。
- vs AdaptThink: AdaptThink 在文本数学任务上训练二元模式切换策略,需要平衡 think/no-think 数据。VideoAuto-R1 通过双答案范式避免了这一困难,且更稳定。
- vs R-4B(图像域 auto-thinking): R-4B 用双模式策略优化(SFT 初始化 + RL 微调),本文完全不需要 SFT 初始化,更简洁。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "思考一次回答两次"范式是全新的 auto-thinking 设计,消除了模式标注需求
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖视频 QA + 时序定位 + 图像推理,消融分析详尽
- 写作质量: ⭐⭐⭐⭐⭐ 动机论证充分(Table 1 的反直觉发现),方法描述清晰
- 价值: ⭐⭐⭐⭐⭐ 在效率和精度上同时取得突破,auto-thinking 范式可广泛复用
相关论文¶
- [NeurIPS 2025] When Thinking Drifts: Evidential Grounding for Robust Video Reasoning
- [CVPR 2026] LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding
- [ICCV 2025] VTimeCoT: Thinking by Drawing for Video Temporal Grounding and Reasoning
- [CVPR 2026] EgoPointVQA: Gesture-Based Egocentric Video Question Answering
- [ICLR 2026] A.I.R.: Adaptive, Iterative, and Reasoning-based Frame Selection For Video Question Answering