Graph-to-Frame RAG: Visual-Space Knowledge Fusion for Training-Free and Auditable Video Reasoning¶
会议: CVPR 2026
arXiv: 2604.04372
代码: 无
领域: 多模态VLM / 图学习
关键词: 视频检索增强生成、知识图谱、视觉空间融合、多智能体框架、免训练视频推理
一句话总结¶
提出 G2F-RAG 范式,将检索到的结构化知识渲染为单帧"推理帧"附加到视频末尾,使大模型在视觉空间内统一推理,避免了文本追加导致的注意力稀释和认知负荷,在 8 个视频基准上实现免训练的一致性提升。
研究背景与动机¶
领域现状:大型多模态模型(LMM)在视频理解中已取得很大进展,但复杂视频推理仍面临三大挑战:(1) 多步组合推理(跨镜头因果、导航等);(2) 需要常识、物体功能等外部知识;(3) 小模型需在无额外训练条件下可靠解决问题并提供可审计的证据链。
现有痛点:主流视频 RAG 方法采用"检索-追加"范式:追加文本(ASR/OCR/描述)、检索候选片段、或注入结构化图/事件链为文本。但这些方法有一个隐含假设——更多相关内容+更长上下文=更好推理。实际中即使视频很短也会性能下降:异质信息源共享同一注意力空间,连续低层视觉信号与离散高层文本竞争注意力,导致注意力稀释和认知负荷增加。
核心矛盾:不仅在于"检索什么",更在于"如何表示和融合外部知识"。当语义不对齐、负荷不可控时,检索反而损害模型能力。实验证实:Video-RAG 在 MLVU 上比基线低 5.4 点,而 G2F-RAG 高 4.6 点。
本文目标 如何将外部知识以模态对齐的方式融合到视频模型中,避免跨模态竞争和上下文爆炸?子问题包括:(1) 离线构建可复用的视频知识图;(2) 在线判断是否需要外部知识;(3) 检索最小充分子图并渲染为视觉帧。
切入角度:视频模型在视觉空间内聚合和推理最强。外部知识应以视觉语法进入同一空间。研究表明视觉模态可以作为文本信息的高效压缩介质。因此将检索到的结构化知识转换为视觉token,让模型在最熟悉的时空推理域操作。
核心 idea:将检索到的知识子图渲染为单帧推理帧,追加到视频末尾,实现视觉空间内的知识融合,避免跨模态注意力竞争。
方法详解¶
整体框架¶
分为离线和在线两个阶段。离线阶段:图构建 Agent 分析视频,生成问题无关的完整知识图 \(\mathcal{G}\)(覆盖实体、事件、空间关系、外部知识),一次构建多次复用。在线阶段:编排 Agent 根据难度路由(简单题直接答、难题走 RAG 路径)→ 检索 Agent 提取最小充分子图 \(S^\star\) → 渲染 Agent 转为单帧推理帧 \(I_{\text{RF}}\) → 追加到视频末尾 \(\tilde{V}=[V; I_{\text{RF}}]\) → LMM 联合推理。全程保持骨干冻结。
关键设计¶
-
视频知识图构建(离线):
- 功能:为每个视频生成问题无关、可复用的完整知识图
- 核心思路:统一两个互补视图——事件-因果视图(参与者、动作、意图、前置/后置条件、因果链)和场景-功能视图(物体及其可供性、功能区域及连通性、抽象概念知识)。两个视图通过密集交叉链接绑定,允许在"发生了什么"和"在哪里/用什么发生"之间无缝转换。可选连接外部网络工具补充世界知识
- 设计动机:问题无关设计使得图构建仅需一次(离线缓存),多个问题可复用同一图。双视图设计覆盖了视频推理中因果和空间两大类需求
-
分层路由与最小子图检索(在线):
- 功能:避免对简单问题引入不必要的知识注入,同时为复杂问题精准提供所需知识
- 核心思路:编排 Agent 输出难度判断 \(d(q,V,\mathcal{G}) \in \{\text{easy}, \text{hard}\}\),通过代理效用估计 \(\Delta U = \hat{U}_{\text{G2F}} - \hat{U}_{\text{Base}}\) 与阈值 \(\tau\) 比较。对 hard 问题,检索 Agent 选择紧凑子图 \(S^\star = \arg\max_{S \subseteq \mathcal{G}} [R(q,S) - \lambda C(S)]\),显式约束节点数 \(|\mathcal{V}(S^\star)| \leq N_{\max}\) 和边数 \(|\mathcal{E}(S^\star)| \leq E_{\max}\) 控制视觉token预算
- 设计动机:关闭路由(对所有问题都用RAG)导致 VideoMME 从 70.6%降到 66.8%,说明简单问题不需要知识注入。最小子图检索避免信息过载(Full-Loose 子图选择导致轻微性能下降)
-
推理帧渲染与视觉空间融合:
- 功能:将抽象图结构转化为 LMM 可高效消费的视觉token
- 核心思路:渲染 Agent 使用 Graphviz 将子图 \(S^\star\) 转为单帧推理帧 \(I_{\text{RF}}\),采用简洁视觉语法(图标+短标签)描绘关键实体、关系和因果流。帧追加在视频末尾以避免干扰原始内容,同时时间注意力仍可覆盖。指令要求视频内容为权威,推理帧为辅助。不编码时间戳,聚焦结构和机制
- 设计动机:消融实验显示 End-1 最优;Mid 插入破坏时间聚合(MLVU 73.4→67.9);多帧增加token预算反而降低精度(End-4 降到 69.0)。Minimal 风格最优;Text-Heavy 重新引入上下文负担
损失函数 / 训练策略¶
无训练。整个流程基于冻结骨干+prompt设计。路由判断依赖 prompt 让 Agent 进行任务分解和策略选择。离线图构建用 GPT-4o,路由和子图提取用 GPT-4o-mini。
实验关键数据¶
主实验(跨模型跨任务)¶
| 模型 | 原始 VideoMME | +G2F-RAG | 原始 WildVideo | +G2F-RAG | 原始 MLVU | +G2F-RAG |
|---|---|---|---|---|---|---|
| InternVL3.5-4B | 65.4 | 70.1 (+4.7) | 45.2 | 47.1 (+1.9) | - | - |
| LLaVA-Video-7B | 63.7 | 64.5 (+0.8) | 53.4 | 57.0 (+3.6) | 69.5 | 75.5 |
| Qwen2.5-VL-7B | 65.1 | 70.6 (+5.5) | 51.3 | 55.4 (+4.1) | 68.8 | 73.4 |
| InternVL3.5-8B | 66.0 | 72.0 (+6.0) | 53.0 | 60.1 (+7.1) | - | - |
与其他 RAG 方法对比(Qwen2.5-VL-7B)¶
| 方法 | MLVU | WildVideo | VideoMME |
|---|---|---|---|
| Baseline | 68.8 | 51.3 | 65.1 |
| +Video-RAG | 63.4 (-5.4) | 47.2 (-4.1) | 60.5 (-4.6) |
| +Vgent | 72.1 | 50.1 | 68.9 |
| +G2F-RAG | 73.4 (+4.6) | 55.4 (+4.1) | 70.6 (+5.5) |
消融实验(Qwen2.5-VL-7B)¶
| 消融维度 | 变体 | MLVU | VideoMME |
|---|---|---|---|
| 表示方式 | G2J-RAG (文本JSON) | 66.2 | 63.0 |
| G2F-RAG (视觉帧) | 73.4 | 70.6 | |
| 帧位置 | Mid-1 | 67.9 | 64.0 |
| End-4 | 69.0 | 66.0 | |
| End-1 | 73.4 | 70.6 | |
| 路由 | Off (全部走RAG) | 69.9 | 66.8 |
| On + Fallback | 73.4 | 70.6 |
关键发现¶
- 视觉帧融合 vs 文本JSON:同样的子图、不同交付方式,G2F-RAG 在 VideoMME 上比 G2J-RAG 高 7.6 点,证明"如何融合"比"融合什么"更关键
- Video-RAG(追加文本)在所有基准上一致降低性能(MLVU -5.4, WildVideo -4.1, VideoMME -4.6),说明异质信息融合本身就是问题源
- 小模型获益更大(4B/7B 提升 3-7 点),因为视觉空间融合减少跨模态竞争与模型容量正交
- 去掉 intent 和 affordance 导致 MLVU 从 73.4 降到 70.2,说明图中的意图和功能字段捕获了有用的前置条件信息
- 故意输入错误/对抗性推理帧时性能几乎不下降,因为prompt始终要求以原始视频为权威
亮点与洞察¶
- "知识交付方式比知识内容更重要"是一个深刻洞察——同样的检索结果,视觉帧比文本JSON高7.6点。这挑战了RAG领域"检索质量决定一切"的隐含假设
- 免训练设计使方法即插即用到任何LMM骨干(InternVL、LLaVA-Video、Qwen-VL),且不同规模都有一致提升。这种架构级方法比微调更具可迁移性
- 单帧推理帧的极简设计反直觉地优于多帧注入——信息压缩到最小必要量反而最有效
局限与展望¶
- 离线图构建依赖 GPT-4o,成本较高且引入闭源模型依赖
- 路由判断的准确性影响最终效果(误分类会导致简单题走RAG降性能或难题直接答错),当前基于prompt的判断缺乏鲁棒性保证
- 推理帧的 Graphviz 渲染可能在复杂子图中可读性不足
- 未在超长视频(>1小时)上验证,知识图的规模和检索精度可能成为瓶颈
- 外部工具(GPT-4o-mini路由)增加了推理延迟
相关工作与启发¶
- vs Video-RAG: Video-RAG 追加文本检索结果,一致降低性能;G2F-RAG 通过视觉空间融合一致提升性能,根本区别在于交付模态
- vs Vgent: Vgent 用结构化检索和验证缓解过载但仍追加文本,G2F-RAG 进一步将结构化结果转为视觉——在 WildVideo 上分别 57.0 vs 51.6
- vs 传统知识图谱RAG: 传统 KG-RAG 将图谱文本化注入,本文首次将图谱可视化为视频帧,利用模型的视觉处理优势
- 注意力分析实证了方法有效性:文本RAG将注意力分散到检索上下文和非关键帧,而G2F-RAG集中在关键段和推理帧
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次提出将检索知识以视觉帧形式融合到视频推理中,范式级创新
- 实验充分度: ⭐⭐⭐⭐⭐ 8个基准、多个骨干、详尽消融(表示/位置/风格/路由/图设计),非常全面
- 写作质量: ⭐⭐⭐⭐⭐ 注意力分析精确揭示问题本质,消融设计细致
- 价值: ⭐⭐⭐⭐⭐ 提出了全新的RAG范式,对视频理解和多模态推理领域有广泛启发
相关论文¶
- [CVPR 2025] Unbiased Video Scene Graph Generation via Visual and Semantic Dual Debiasing
- [CVPR 2026] M3KG-RAG: Multi-hop Multimodal Knowledge Graph-enhanced Retrieval-Augmented Generation
- [NeurIPS 2025] DuetGraph: Coarse-to-Fine Knowledge Graph Reasoning with Dual-Pathway Global-Local Fusion
- [AAAI 2026] Human Cognition Inspired RAG with Knowledge Graph for Complex Problem Solving
- [CVPR 2026] Mario: Multimodal Graph Reasoning with Large Language Models