AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding¶
会议: NeurIPS 2025
arXiv: 2506.13589
代码: https://github.com/xzc-zju/AdaVideoRAG
领域: 多模态VLM / 视频理解
关键词: long video understanding, retrieval-augmented generation, adaptive retrieval, knowledge graph, intent classification
一句话总结¶
提出 AdaVideoRAG,通过轻量级意图分类器将查询按难度路由到三级检索路径(无检索/朴素检索/图检索),结合全知识索引模块(caption+ASR+OCR+视觉+知识图谱)实现长视频理解的效率-精度最优平衡,在 MLVU 上为 Qwen2.5-VL-7B 带来 39.8% 提升。
背景与动机¶
MLLM 在长视频理解中面临三个问题:(1) 固定上下文窗口导致长视频信息丢失,(2) 知识固化无法动态更新,(3) 多跳推理能力不足。现有 VideoRAG 方案存在固定检索范式缺陷: - 朴素检索(VideoRAG [Luo]):caption+ASR+OCR 向量检索,无法处理需要全局理解的多跳问题 - 图检索(VideoRAG [Ren]):构建层次知识图谱,精度高但计算开销大(复杂图遍历),对简单问题造成不必要延迟
关键洞察:不同难度的问题应该用不同复杂度的检索策略。
核心问题¶
如何自适应地为不同复杂度的视频理解查询分配合适的检索策略,在简单问题上节省计算、在困难问题上保证深度推理?
方法详解¶
整体框架¶
四阶段流程:(1) 查询意图分类 → (2) 全知识索引构建 → (3) 自适应检索 → (4) 多模态信息整合与生成。系统作为即插即用的 API 与现有 MLLM 集成。
关键设计¶
- 查询意图分类器: 用轻量 LLM(Qwen2.5-7B + CoT)将查询分为三级:
- L1(直接事实):如"第5秒出现什么物体"→ 直接送 MLLM,无需检索
- L2(简单推理):如"为什么下雨前女人哭了"→ 朴素向量检索(caption/ASR/OCR + 视觉检索)
- L3(复杂推理):如"这部电影传达了什么人生道理"→ 图检索 + 多跳推理
分类器耗时仅占总推理的 ≤5%。
- 全知识索引模块 Omni-Knowledge Indexing: 从视频中提取多模态信息构建四个知识库:
- Caption 库:每 30s 采样 5 帧,用 MiniCPM-V 生成细粒度描述
- ASR 库:FastWhisper 提取语音转文本
- OCR 库:EasyOCR 提取场景文字
- 视觉库:ImageBind 提取帧级视觉特征,映射到统一语义空间
-
知识图谱:从文本 chunk 中用 BGE-M3 提取实体和关系(时空/因果/功能关系)
-
自适应检索范式:
- L1:直接 MLLM 推理
- L2:查询改写(针对 caption/ASR/OCR 分别改写)→ 向量检索 + 视觉 grounding → 过滤排序
-
L3:在 L2 基础上加入 LightRAG 图检索,提取实体关系和关联信息,构建以查询为中心的思维图谱
-
证据过滤与排序: 去重 → 用小模型(Qwen2.5-7B)精细过滤无关结果 → 按视频时间顺序重排保持因果关系
损失函数 / 训练策略¶
无训练框架,全部基于推理时的 API 调用。意图分类器通过 prompt engineering 实现。
实验关键数据¶
| 模型 | MLVU AVG | 提升 | Video-MME Overall | 提升 |
|---|---|---|---|---|
| Qwen2.5-VL-7B | 29.0 | - | 47.2 | - |
| + VideoRAG | - | - | 55.0 | +7.9 |
| + AdaVideoRAG | 40.5 | +39.8% | 59.9 | +12.7 |
| VideoLLaMA3-7B | 47.7 | - | 64.2 | - |
| + VideoRAG | - | - | 67.3 | +3.1 |
| + AdaVideoRAG | 53.2 | +11.6% | 68.5 | +4.3 |
| GPT-4o | 54.9 | - | 71.9 | - |
VideoLLaMA3 + AdaVideoRAG(7B)可与 GPT-4o 媲美(53.2 vs 54.9 MLVU)。
HiVU 基准:在 L3(困难推理)上 Overall Winner 77.13% vs baseline 22.87%,优势极为显著。
消融实验要点¶
- 分类器选择:Qwen2.5-7B 精度 0.81,明显优于 1.5B(0.41),且 overall 68.5 最高
- 去掉分类器:全走 L1 得 64.2,全走 L2 得 67.5,全走 L3 得 67.1,自适应得 68.5——验证了按需路由的价值
- 去掉图检索:Overall Winner 54.18%(vs 完整 69.42%),说明图检索对复杂问题至关重要
- 去掉文本检索:影响最大(68.75% → 31.25%),辅助文本是最核心的知识来源
- 采样频率:5帧/30s 与 30帧/30s 仅差 ~1 点,5帧即够用
亮点¶
- 自适应路由是非常实用的设计——简单问题不浪费资源,复杂问题不遗漏信息
- 即插即用架构,不修改 MLLM 本身,通过 API 调用即可增强任何视频 MLLM
- 提出 HiVU 基准:首个分层难度的长视频理解评估集(L1/L2/L3),120 个视频 60 小时
- 7B 模型加上 AdaVideoRAG 可超越 72B 模型甚至媲美 GPT-4o
局限性 / 可改进方向¶
- 仅测试了三级路由,实际应用可能需要更细粒度的难度划分
- 知识库构建耗时较长(L3 约 412s),虽然可并行加速但仍是部署瓶颈
- 意图分类器的准确率 0.81 存在误分类风险,L2 误分为 L1 会导致信息不足
- HiVU 基准规模较小(120 视频),评估可能不够充分
与相关工作的对比¶
- vs VideoRAG [Luo]: 仅用朴素检索、不支持多跳推理;AdaVideoRAG 在长视频上优势显著(+4.8 Video-MME)
- vs VideoRAG [Ren]: 图检索对所有查询一视同仁,效率低;AdaVideoRAG 在 HiVU L3 上优于 VideoRAG(57.77 vs 42.23 Overall Winner)同时在简单查询上更高效
- vs Adaptive-RAG [文本]: 将自适应检索概念从文本扩展到视频多模态场景,增加了视觉 grounding 和知识图谱
启发与关联¶
- 自适应路由思想可迁移到图像理解:简单问题直接 VLM 回答,复杂问题才启用 RAG
- 全知识索引的多模态信息提取流程(caption+ASR+OCR+vision+graph)可作为通用视频知识库构建范式
- 与 Balanced Token Pruning 形成有趣互补:BTP 压缩输入 token,AdaVideoRAG 扩展外部知识
评分¶
- 新颖性: ⭐⭐⭐⭐ 自适应路由 + 全知识索引的整合方案系统性强
- 实验充分度: ⭐⭐⭐⭐⭐ 多个基准、多个MLLM、消融分析全面
- 写作质量: ⭐⭐⭐⭐ 系统架构描述清楚、动机分析到位
- 价值: ⭐⭐⭐⭐ 实用性强,即插即用方案对工业部署有价值