跳转至

APVR: Hour-Level Long Video Understanding with Adaptive Pivot Visual Information Retrieval

会议: AAAI 2026
arXiv: 2506.04953v3
代码: 无公开链接
领域: 视频理解 / 多模态LLM
关键词: 长视频理解, 训练免费, 关键帧检索, token压缩, 双粒度检索

一句话总结

提出APVR,一个训练免费的双粒度视觉信息检索框架:帧级别通过查询扩展+时空语义置信度打分迭代检索关键帧(最多1024帧),token级别通过查询感知的注意力驱动选择压缩视觉token,突破内存墙限制处理小时级长视频,在LongVideoBench/VideoMME/MLVU上分别提升最高9.5%/4.6%/9.7%。

背景与动机

现有视频MLLM处理长视频面临三大困境:(1) 均匀采样:稀释关键信息,大量帧无关;(2) 稀疏关键帧检索:丢失时序语义关系,无法做需要时间推理的任务;(3) 密集帧处理:撞上内存墙。训练方法(序列并行、特征压缩)需要昂贵的多阶段重训且绑定特定架构。

核心矛盾:时间覆盖度与计算可行性的权衡

核心问题

如何在不重训模型的前提下,从小时级长视频中高效检索与查询相关的帧和token,突破MLLM的内存限制同时保持语义完整性?

方法详解

整体框架

APVR = Pivot Frame Retrieval (PFR) + Pivot Token Retrieval (PTR),插件式集成到任意MLLM。 - PFR: 查询扩展→CLIP+Grounding-DINO双模打分→时序扩散→自适应重采样→选出K帧 - PTR: 查询感知注意力打分→动态chunk选择+head-wise soft voting→压缩视觉token

关键设计

  1. 语义信息扩展: 用LLM将原始查询扩展为4类信息:Objects(可检测物体)、Descriptions(实体描述/上位概念)、Relations(物体间时空/因果关系三元组)、Semantics(知识图谱语义)。这大幅增强了帧检索的召回率。

  2. 时空语义置信度打分: 双模型互补——CLIP计算语义相似度(文本-图像嵌入余弦距离),Grounding-DINO检测具体物体并建模空间关系(同帧共现、时序出现等)。最终分数 \(\mathcal{S}_t = (1-\lambda) \cdot s_t^{CLIP} + \lambda \cdot s_t^{GD}\)。加入时序扩散将高分传播到邻近帧。

  3. 迭代自适应重采样: 不是一次打分完事,而是多轮迭代(默认3轮),每轮减小采样步长。候选集由高置信度集和高不确定性集(Shannon熵高的区域)组成,既利用已有知识又探索未知区域。

  4. 查询感知token选择: 在MLLM内部,利用text query对visual token的跨模态注意力分数,动态chunk粒度选择重要token。head-wise soft voting消除不同注意力头的差异。

损失函数 / 训练策略

完全训练免费。CLIP和Grounding-DINO使用现成预训练权重。只需LLM做查询扩展。

实验关键数据

基线模型 方法 LVB val VideoMME Long VideoMME Overall MLVU dev
Qwen2-VL-7B Vanilla 55.6 53.8 63.3 66.9
Qwen2-VL-7B +APVR 60.9(+9.5%) 55.1(+2.4%) 65.2(+3.0%) 73.4(+9.7%)
Qwen2.5-VL-7B Vanilla 59.5 55.6 65.4 70.2
Qwen2.5-VL-7B +APVR 64.9(+9.1%) 59.1(+6.3%) 68.4(+4.6%) 76.1(+8.4%)
VideoLLaMA3-7B Vanilla 59.8 54.9 66.2 73.0
VideoLLaMA3-7B +APVR 63.5(+6.2%) 58.7(+6.9%) 68.1(+2.9%) 77.2(+5.5%)

APVR+Qwen2.5-VL-7B在LVB上超过GPT-4V(59.1)和Gemini-1.5-Pro(64.0)。

消融实验要点

  • PFR + PTR缺一不可: 去掉PFR→退回到均匀采样;去掉PTR→只能处理256帧(vs 1024帧)
  • 查询扩展的贡献: 去掉扩展语义信息→LVB下降约1-2%
  • 帧数K的影响: K从32增到1024,性能持续提升,1024帧是APVR的关键能力
  • 迭代次数P=3最优: P=2不够精细,P=5过度拟合
  • λ=0.5: CLIP和GD打分平衡时最优

亮点

  • 训练免费+即插即用: 不修改MLLM参数,可适配任意底座模型,面对快速迭代的MLLM生态非常实用
  • 双粒度检索的互补性: 帧级别解决"看哪些帧",token级别解决"每帧看什么",协同突破内存墙
  • 迭代重采样+不确定性探索: 不是一次性定死关键帧,而是逐步精化,高不确定性区域也被探索,避免局部最优
  • 查询扩展极大增强检索: 从简单问题扩展出物体、关系、语义等多维信息,使CLIP/GD的匹配更精准
  • 7B模型超越GPT-4V: 训练免费方法+7B模型在LVB上64.9% > GPT-4V 59.1%

局限性 / 可改进方向

  • 依赖外部模型: 需要CLIP+Grounding-DINO+LLM三个额外模型做查询扩展和帧打分,增加系统复杂度
  • 延迟: 每个查询需要2分钟处理小时级视频,实时应用可能不够快
  • 仅限多选QA: 所有benchmark都是选择题形式,开放问答的效果未知
  • 查询扩展质量依赖LLM: 如果LLM扩展出错误的物体或关系,会误导帧检索
  • Grounding-DINO检测能力限制: 对抽象概念或动作(而非物体)的检索可能不够好

与相关工作的对比

方法 类型 核心思路 与APVR的关键差异
AKS 训练免费 关键帧选择+信息预过滤 仅帧级别,无token级别压缩
QuoTA 训练免费 查询感知的token分配 仅token级别,无帧级别检索
LongVILA 训练型 5阶段训练+序列并行 需要大量训练资源,绑定特定架构
Video-XL-Pro 训练型 学习压缩模块 需要重新训练

APVR的核心优势是双粒度——帧+token同时优化,且完全训练免费。

启发与关联

  • 迭代重采样+不确定性引导的思路可迁移到其他需要信息检索的agent任务(如RAG、文档理解)
  • 查询扩展策略(物体+关系+语义)对视频检索和视频定位任务有通用价值
  • 训练免费方法作为"参数缩放的替代方案",在模型快速迭代的时代有独特优势

评分

  • 新颖性: ⭐⭐⭐⭐ 双粒度检索框架和迭代重采样策略有新意,但各组件本身用的是已有工具
  • 实验充分度: ⭐⭐⭐⭐⭐ 3个benchmark、3个基线MLLM、丰富的消融分析、定性对比
  • 写作质量: ⭐⭐⭐⭐ 框架图和算法描述清晰,动机说明有力
  • 价值: ⭐⭐⭐⭐⭐ 训练免费+即插即用+超越GPT-4V,实际应用价值极高