Video Finetuning Improves Reasoning Between Frames¶

会议: NeurIPS 2025
arXiv: 2511.12868
代码: 无
领域: 视频理解
关键词: 视频微调, 多模态大语言模型, 帧间推理, 视觉思维链, 时序理解

一句话总结¶

本文通过提出视觉思维链（vCoT）方法，系统地比较了图像LLM与视频微调LLM在帧间推理能力上的差异，发现视频微调使模型隐式学会了帧间过渡推理，且这种能力可迁移到静态图像的关系推理任务中。

多模态大语言模型（LLM）在视觉理解方面取得了显著进展，但从图像扩展到视频理解时，大多数方法仍然采用朴素的逐帧token拼接策略，缺乏真正的时序理解能力。这导致模型在需要推理帧间隐式过渡的任务上表现不佳，往往只能依赖表面的视觉线索。

视频LLM通过额外的视频数据微调和时序位置编码（如RoPE）等归纳偏置来增强视频理解，但一个核心问题始终未得到系统回答：视频微调到底为模型带来了什么？它在多大程度上增强了模型超越图像模型的推理能力？

本文的核心切入点是：如果视频微调确实让模型学会了帧间推理，那么显式提供帧间过渡描述对视频模型的增益应该很小（因为模型已经隐式学会了），而对图像模型的增益应该很大（因为图像模型缺少这种能力）。基于这一假设，作者设计了vCoT来验证这一机制。

作者的研究框架是一个比较实验设计：选取结构相同的图像LLM和视频LLM对（如LLaVA-NeXT vs LLaVA-NeXT-Video），唯一区别是是否经过视频微调。通过在有无vCoT条件下比较两类模型的性能变化，揭示视频微调的实际作用。

视觉思维链（vCoT）生成: vCoT的核心思路是为相邻帧之间生成显式的文本过渡描述。具体分两步：
- Step 1 — 共同视觉属性识别: 给模型展示两帧图像，询问"这两张图有什么共同点？"，让模型识别出共享的场景元素（如物体、背景、空间配置），建立跨帧的稳定上下文。
- Step 2 — 桥接事件推理: 基于两帧和识别出的共同元素，提示模型推理可能发生在两帧之间的中间事件（如"这个人把球踢向房子"）。为保持简洁，使用Qwen-2.5模型对描述进行精简改写。
模态扰动实验（Modality Shuffling）: 为了区分模型对视觉和文本线索的依赖程度，设计了两种扰动：
- 视觉扰动: 将每个视频帧替换为不相关视频的帧，保持文本infill不变。
- 文本扰动: 保持原始帧不变，但用其他视频的文本infill替换。通过观察不同模型对两种扰动的敏感度，揭示视频模型与图像模型的模态依赖差异。
静态图像推理迁移实验: 在i-RAVEN基准上测试视频模型是否能将帧间推理能力迁移到非时序的关系推理任务中。RAVEN是一个抽象视觉推理任务（类似智力测试中的渐变矩阵），要求从一组面板中推断抽象规则并选择正确的补全。

本文不涉及新的训练方法，而是一个分析性研究。使用的模型对包括： - LLaVA-NeXT（图像） vs LLaVA-NeXT-Video（视频） - InternVL-Image vs InternVL-Video 所有模型对共享相同的视觉编码器、语言骨干和跨模态投影器。

模型	帧数	基线准确率	+vCoT准确率	提升
LLaVA-NeXT (图像)	5	44.0%	51.4%	+7.4%
LLaVA-NeXT-Video (视频)	5	47.0%	48.6%	+1.6%
LLaVA-NeXT (图像)	10	49.2%	55.4%	+6.2%
LLaVA-NeXT-Video (视频)	10	49.0%	51.4%	+2.4%
InternVL-Image	5	38.4%	40.4%	+2.0%
InternVL-Video	5	44.6%	42.4%	-2.2%
InternVL-Image	10	37.4%	42.6%	+5.2%
InternVL-Video	10	45.8%	49.0%	+3.2%

模型	帧数	vCoT基线	视觉扰动	文本扰动
LLaVA-NeXT (图像)	5	51.4%	39.8% (-11.6)	42.0% (-9.4)
LLaVA-NeXT-Video (视频)	5	48.6%	41.6% (-7.0)	47.0% (-1.6)
LLaVA-NeXT (图像)	10	55.4%	51.8% (-3.6)	45.0% (-10.4)
LLaVA-NeXT-Video (视频)	10	51.4%	46.4% (-5.0)	45.4% (-6.0)

模型	center	dist_4	dist_9	in/out	indist4/out	L/R	U/D	平均
InternVL-Image	14.8	14.4	15.2	11.6	13.2	15.2	14.4	14.1
InternVL-Video	15.6	16.0	15.8	13.8	17.0	14.0	14.2	15.2
LLaVA-Image	7.0	8.0	15.0	7.0	9.0	12.0	14.0	10.3
LLaVA-Video	7.0	14.0	16.0	8.0	13.0	14.0	21.0	13.3