APVR: Hour-Level Long Video Understanding with Adaptive Pivot Visual Information Retrieval¶

会议: AAAI 2026
arXiv: 2506.04953v3
代码: 无公开链接
领域: 视频理解 / 多模态LLM
关键词: 长视频理解, 训练免费, 关键帧检索, token压缩, 双粒度检索

一句话总结¶

提出APVR，一个训练免费的双粒度视觉信息检索框架：帧级别通过查询扩展+时空语义置信度打分迭代检索关键帧（最多1024帧），token级别通过查询感知的注意力驱动选择压缩视觉token，突破内存墙限制处理小时级长视频，在LongVideoBench/VideoMME/MLVU上分别提升最高9.5%/4.6%/9.7%。

背景与动机¶

现有视频MLLM处理长视频面临三大困境：(1) 均匀采样：稀释关键信息，大量帧无关；(2) 稀疏关键帧检索：丢失时序语义关系，无法做需要时间推理的任务；(3) 密集帧处理：撞上内存墙。训练方法（序列并行、特征压缩）需要昂贵的多阶段重训且绑定特定架构。

核心矛盾：时间覆盖度与计算可行性的权衡。

核心问题¶

如何在不重训模型的前提下，从小时级长视频中高效检索与查询相关的帧和token，突破MLLM的内存限制同时保持语义完整性？

方法详解¶

整体框架¶

APVR = Pivot Frame Retrieval (PFR) + Pivot Token Retrieval (PTR)，插件式集成到任意MLLM。 - PFR: 查询扩展→CLIP+Grounding-DINO双模打分→时序扩散→自适应重采样→选出K帧 - PTR: 查询感知注意力打分→动态chunk选择+head-wise soft voting→压缩视觉token

关键设计¶

语义信息扩展: 用LLM将原始查询扩展为4类信息：Objects（可检测物体）、Descriptions（实体描述/上位概念）、Relations（物体间时空/因果关系三元组）、Semantics（知识图谱语义）。这大幅增强了帧检索的召回率。
时空语义置信度打分: 双模型互补——CLIP计算语义相似度（文本-图像嵌入余弦距离），Grounding-DINO检测具体物体并建模空间关系（同帧共现、时序出现等）。最终分数 \(\mathcal{S}_t = (1-\lambda) \cdot s_t^{CLIP} + \lambda \cdot s_t^{GD}\)。加入时序扩散将高分传播到邻近帧。
迭代自适应重采样: 不是一次打分完事，而是多轮迭代（默认3轮），每轮减小采样步长。候选集由高置信度集和高不确定性集（Shannon熵高的区域）组成，既利用已有知识又探索未知区域。
查询感知token选择: 在MLLM内部，利用text query对visual token的跨模态注意力分数，动态chunk粒度选择重要token。head-wise soft voting消除不同注意力头的差异。

损失函数 / 训练策略¶

完全训练免费。CLIP和Grounding-DINO使用现成预训练权重。只需LLM做查询扩展。

实验关键数据¶

基线模型	方法	LVB val	VideoMME Long	VideoMME Overall	MLVU dev
Qwen2-VL-7B	Vanilla	55.6	53.8	63.3	66.9
Qwen2-VL-7B	+APVR	60.9(+9.5%)	55.1(+2.4%)	65.2(+3.0%)	73.4(+9.7%)
Qwen2.5-VL-7B	Vanilla	59.5	55.6	65.4	70.2
Qwen2.5-VL-7B	+APVR	64.9(+9.1%)	59.1(+6.3%)	68.4(+4.6%)	76.1(+8.4%)
VideoLLaMA3-7B	Vanilla	59.8	54.9	66.2	73.0
VideoLLaMA3-7B	+APVR	63.5(+6.2%)	58.7(+6.9%)	68.1(+2.9%)	77.2(+5.5%)

APVR+Qwen2.5-VL-7B在LVB上超过GPT-4V(59.1)和Gemini-1.5-Pro(64.0)。

消融实验要点¶

PFR + PTR缺一不可: 去掉PFR→退回到均匀采样；去掉PTR→只能处理256帧（vs 1024帧）
查询扩展的贡献: 去掉扩展语义信息→LVB下降约1-2%
帧数K的影响: K从32增到1024，性能持续提升，1024帧是APVR的关键能力
迭代次数P=3最优: P=2不够精细，P=5过度拟合
λ=0.5: CLIP和GD打分平衡时最优

亮点¶

训练免费+即插即用: 不修改MLLM参数，可适配任意底座模型，面对快速迭代的MLLM生态非常实用
双粒度检索的互补性: 帧级别解决"看哪些帧"，token级别解决"每帧看什么"，协同突破内存墙
迭代重采样+不确定性探索: 不是一次性定死关键帧，而是逐步精化，高不确定性区域也被探索，避免局部最优
查询扩展极大增强检索: 从简单问题扩展出物体、关系、语义等多维信息，使CLIP/GD的匹配更精准
7B模型超越GPT-4V: 训练免费方法+7B模型在LVB上64.9% > GPT-4V 59.1%

局限性 / 可改进方向¶

依赖外部模型: 需要CLIP+Grounding-DINO+LLM三个额外模型做查询扩展和帧打分，增加系统复杂度
延迟: 每个查询需要2分钟处理小时级视频，实时应用可能不够快
仅限多选QA: 所有benchmark都是选择题形式，开放问答的效果未知
查询扩展质量依赖LLM: 如果LLM扩展出错误的物体或关系，会误导帧检索
Grounding-DINO检测能力限制: 对抽象概念或动作（而非物体）的检索可能不够好

与相关工作的对比¶

方法	类型	核心思路	与APVR的关键差异
AKS	训练免费	关键帧选择+信息预过滤	仅帧级别，无token级别压缩
QuoTA	训练免费	查询感知的token分配	仅token级别，无帧级别检索
LongVILA	训练型	5阶段训练+序列并行	需要大量训练资源，绑定特定架构
Video-XL-Pro	训练型	学习压缩模块	需要重新训练

APVR的核心优势是双粒度——帧+token同时优化，且完全训练免费。

启发与关联¶

迭代重采样+不确定性引导的思路可迁移到其他需要信息检索的agent任务（如RAG、文档理解）
查询扩展策略（物体+关系+语义）对视频检索和视频定位任务有通用价值
训练免费方法作为"参数缩放的替代方案"，在模型快速迭代的时代有独特优势

评分¶

新颖性: ⭐⭐⭐⭐ 双粒度检索框架和迭代重采样策略有新意，但各组件本身用的是已有工具
实验充分度: ⭐⭐⭐⭐⭐ 3个benchmark、3个基线MLLM、丰富的消融分析、定性对比
写作质量: ⭐⭐⭐⭐ 框架图和算法描述清晰，动机说明有力
价值: ⭐⭐⭐⭐⭐ 训练免费+即插即用+超越GPT-4V，实际应用价值极高