APVR: Hour-Level Long Video Understanding with Adaptive Pivot Visual Information Retrieval¶
会议: AAAI 2026
arXiv: 2506.04953v3
代码: 无公开链接
领域: 视频理解 / 多模态LLM
关键词: 长视频理解, 训练免费, 关键帧检索, token压缩, 双粒度检索
一句话总结¶
提出APVR,一个训练免费的双粒度视觉信息检索框架:帧级别通过查询扩展+时空语义置信度打分迭代检索关键帧(最多1024帧),token级别通过查询感知的注意力驱动选择压缩视觉token,突破内存墙限制处理小时级长视频,在LongVideoBench/VideoMME/MLVU上分别提升最高9.5%/4.6%/9.7%。
背景与动机¶
现有视频MLLM处理长视频面临三大困境:(1) 均匀采样:稀释关键信息,大量帧无关;(2) 稀疏关键帧检索:丢失时序语义关系,无法做需要时间推理的任务;(3) 密集帧处理:撞上内存墙。训练方法(序列并行、特征压缩)需要昂贵的多阶段重训且绑定特定架构。
核心矛盾:时间覆盖度与计算可行性的权衡。
核心问题¶
如何在不重训模型的前提下,从小时级长视频中高效检索与查询相关的帧和token,突破MLLM的内存限制同时保持语义完整性?
方法详解¶
整体框架¶
APVR = Pivot Frame Retrieval (PFR) + Pivot Token Retrieval (PTR),插件式集成到任意MLLM。 - PFR: 查询扩展→CLIP+Grounding-DINO双模打分→时序扩散→自适应重采样→选出K帧 - PTR: 查询感知注意力打分→动态chunk选择+head-wise soft voting→压缩视觉token
关键设计¶
-
语义信息扩展: 用LLM将原始查询扩展为4类信息:Objects(可检测物体)、Descriptions(实体描述/上位概念)、Relations(物体间时空/因果关系三元组)、Semantics(知识图谱语义)。这大幅增强了帧检索的召回率。
-
时空语义置信度打分: 双模型互补——CLIP计算语义相似度(文本-图像嵌入余弦距离),Grounding-DINO检测具体物体并建模空间关系(同帧共现、时序出现等)。最终分数 \(\mathcal{S}_t = (1-\lambda) \cdot s_t^{CLIP} + \lambda \cdot s_t^{GD}\)。加入时序扩散将高分传播到邻近帧。
-
迭代自适应重采样: 不是一次打分完事,而是多轮迭代(默认3轮),每轮减小采样步长。候选集由高置信度集和高不确定性集(Shannon熵高的区域)组成,既利用已有知识又探索未知区域。
-
查询感知token选择: 在MLLM内部,利用text query对visual token的跨模态注意力分数,动态chunk粒度选择重要token。head-wise soft voting消除不同注意力头的差异。
损失函数 / 训练策略¶
完全训练免费。CLIP和Grounding-DINO使用现成预训练权重。只需LLM做查询扩展。
实验关键数据¶
| 基线模型 | 方法 | LVB val | VideoMME Long | VideoMME Overall | MLVU dev |
|---|---|---|---|---|---|
| Qwen2-VL-7B | Vanilla | 55.6 | 53.8 | 63.3 | 66.9 |
| Qwen2-VL-7B | +APVR | 60.9(+9.5%) | 55.1(+2.4%) | 65.2(+3.0%) | 73.4(+9.7%) |
| Qwen2.5-VL-7B | Vanilla | 59.5 | 55.6 | 65.4 | 70.2 |
| Qwen2.5-VL-7B | +APVR | 64.9(+9.1%) | 59.1(+6.3%) | 68.4(+4.6%) | 76.1(+8.4%) |
| VideoLLaMA3-7B | Vanilla | 59.8 | 54.9 | 66.2 | 73.0 |
| VideoLLaMA3-7B | +APVR | 63.5(+6.2%) | 58.7(+6.9%) | 68.1(+2.9%) | 77.2(+5.5%) |
APVR+Qwen2.5-VL-7B在LVB上超过GPT-4V(59.1)和Gemini-1.5-Pro(64.0)。
消融实验要点¶
- PFR + PTR缺一不可: 去掉PFR→退回到均匀采样;去掉PTR→只能处理256帧(vs 1024帧)
- 查询扩展的贡献: 去掉扩展语义信息→LVB下降约1-2%
- 帧数K的影响: K从32增到1024,性能持续提升,1024帧是APVR的关键能力
- 迭代次数P=3最优: P=2不够精细,P=5过度拟合
- λ=0.5: CLIP和GD打分平衡时最优
亮点¶
- 训练免费+即插即用: 不修改MLLM参数,可适配任意底座模型,面对快速迭代的MLLM生态非常实用
- 双粒度检索的互补性: 帧级别解决"看哪些帧",token级别解决"每帧看什么",协同突破内存墙
- 迭代重采样+不确定性探索: 不是一次性定死关键帧,而是逐步精化,高不确定性区域也被探索,避免局部最优
- 查询扩展极大增强检索: 从简单问题扩展出物体、关系、语义等多维信息,使CLIP/GD的匹配更精准
- 7B模型超越GPT-4V: 训练免费方法+7B模型在LVB上64.9% > GPT-4V 59.1%
局限性 / 可改进方向¶
- 依赖外部模型: 需要CLIP+Grounding-DINO+LLM三个额外模型做查询扩展和帧打分,增加系统复杂度
- 延迟: 每个查询需要2分钟处理小时级视频,实时应用可能不够快
- 仅限多选QA: 所有benchmark都是选择题形式,开放问答的效果未知
- 查询扩展质量依赖LLM: 如果LLM扩展出错误的物体或关系,会误导帧检索
- Grounding-DINO检测能力限制: 对抽象概念或动作(而非物体)的检索可能不够好
与相关工作的对比¶
| 方法 | 类型 | 核心思路 | 与APVR的关键差异 |
|---|---|---|---|
| AKS | 训练免费 | 关键帧选择+信息预过滤 | 仅帧级别,无token级别压缩 |
| QuoTA | 训练免费 | 查询感知的token分配 | 仅token级别,无帧级别检索 |
| LongVILA | 训练型 | 5阶段训练+序列并行 | 需要大量训练资源,绑定特定架构 |
| Video-XL-Pro | 训练型 | 学习压缩模块 | 需要重新训练 |
APVR的核心优势是双粒度——帧+token同时优化,且完全训练免费。
启发与关联¶
- 迭代重采样+不确定性引导的思路可迁移到其他需要信息检索的agent任务(如RAG、文档理解)
- 查询扩展策略(物体+关系+语义)对视频检索和视频定位任务有通用价值
- 训练免费方法作为"参数缩放的替代方案",在模型快速迭代的时代有独特优势
评分¶
- 新颖性: ⭐⭐⭐⭐ 双粒度检索框架和迭代重采样策略有新意,但各组件本身用的是已有工具
- 实验充分度: ⭐⭐⭐⭐⭐ 3个benchmark、3个基线MLLM、丰富的消融分析、定性对比
- 写作质量: ⭐⭐⭐⭐ 框架图和算法描述清晰,动机说明有力
- 价值: ⭐⭐⭐⭐⭐ 训练免费+即插即用+超越GPT-4V,实际应用价值极高