Graph-to-Frame RAG: Visual-Space Knowledge Fusion for Training-Free and Auditable Video Reasoning¶

会议: CVPR 2026
arXiv: 2604.04372
代码: 无
领域: 多模态VLM / 图学习
关键词: 视频检索增强生成、知识图谱、视觉空间融合、多智能体框架、免训练视频推理

一句话总结¶

提出 G2F-RAG 范式，将检索到的结构化知识渲染为单帧"推理帧"附加到视频末尾，使大模型在视觉空间内统一推理，避免了文本追加导致的注意力稀释和认知负荷，在 8 个视频基准上实现免训练的一致性提升。

研究背景与动机¶

领域现状：大型多模态模型（LMM）在视频理解中已取得很大进展，但复杂视频推理仍面临三大挑战：(1) 多步组合推理（跨镜头因果、导航等）；(2) 需要常识、物体功能等外部知识；(3) 小模型需在无额外训练条件下可靠解决问题并提供可审计的证据链。

现有痛点：主流视频 RAG 方法采用"检索-追加"范式：追加文本（ASR/OCR/描述）、检索候选片段、或注入结构化图/事件链为文本。但这些方法有一个隐含假设——更多相关内容+更长上下文=更好推理。实际中即使视频很短也会性能下降：异质信息源共享同一注意力空间，连续低层视觉信号与离散高层文本竞争注意力，导致注意力稀释和认知负荷增加。

核心矛盾：不仅在于"检索什么"，更在于"如何表示和融合外部知识"。当语义不对齐、负荷不可控时，检索反而损害模型能力。实验证实：Video-RAG 在 MLVU 上比基线低 5.4 点，而 G2F-RAG 高 4.6 点。

本文目标 如何将外部知识以模态对齐的方式融合到视频模型中，避免跨模态竞争和上下文爆炸？子问题包括：(1) 离线构建可复用的视频知识图；(2) 在线判断是否需要外部知识；(3) 检索最小充分子图并渲染为视觉帧。

切入角度：视频模型在视觉空间内聚合和推理最强。外部知识应以视觉语法进入同一空间。研究表明视觉模态可以作为文本信息的高效压缩介质。因此将检索到的结构化知识转换为视觉token，让模型在最熟悉的时空推理域操作。

核心 idea：将检索到的知识子图渲染为单帧推理帧，追加到视频末尾，实现视觉空间内的知识融合，避免跨模态注意力竞争。

方法详解¶

整体框架¶

分为离线和在线两个阶段。离线阶段：图构建 Agent 分析视频，生成问题无关的完整知识图 \(\mathcal{G}\)（覆盖实体、事件、空间关系、外部知识），一次构建多次复用。在线阶段：编排 Agent 根据难度路由（简单题直接答、难题走 RAG 路径）→ 检索 Agent 提取最小充分子图 \(S^\star\) → 渲染 Agent 转为单帧推理帧 \(I_{\text{RF}}\) → 追加到视频末尾 \(\tilde{V}=[V; I_{\text{RF}}]\) → LMM 联合推理。全程保持骨干冻结。

关键设计¶

视频知识图构建（离线）:
- 功能：为每个视频生成问题无关、可复用的完整知识图
- 核心思路：统一两个互补视图——事件-因果视图（参与者、动作、意图、前置/后置条件、因果链）和场景-功能视图（物体及其可供性、功能区域及连通性、抽象概念知识）。两个视图通过密集交叉链接绑定，允许在"发生了什么"和"在哪里/用什么发生"之间无缝转换。可选连接外部网络工具补充世界知识
- 设计动机：问题无关设计使得图构建仅需一次（离线缓存），多个问题可复用同一图。双视图设计覆盖了视频推理中因果和空间两大类需求
分层路由与最小子图检索（在线）:
- 功能：避免对简单问题引入不必要的知识注入，同时为复杂问题精准提供所需知识
- 核心思路：编排 Agent 输出难度判断 \(d(q,V,\mathcal{G}) \in \{\text{easy}, \text{hard}\}\)，通过代理效用估计 \(\Delta U = \hat{U}_{\text{G2F}} - \hat{U}_{\text{Base}}\) 与阈值 \(\tau\) 比较。对 hard 问题，检索 Agent 选择紧凑子图 \(S^\star = \arg\max_{S \subseteq \mathcal{G}} [R(q,S) - \lambda C(S)]\)，显式约束节点数 \(|\mathcal{V}(S^\star)| \leq N_{\max}\) 和边数 \(|\mathcal{E}(S^\star)| \leq E_{\max}\) 控制视觉token预算
- 设计动机：关闭路由（对所有问题都用RAG）导致 VideoMME 从 70.6%降到 66.8%，说明简单问题不需要知识注入。最小子图检索避免信息过载（Full-Loose 子图选择导致轻微性能下降）
推理帧渲染与视觉空间融合:
- 功能：将抽象图结构转化为 LMM 可高效消费的视觉token
- 核心思路：渲染 Agent 使用 Graphviz 将子图 \(S^\star\) 转为单帧推理帧 \(I_{\text{RF}}\)，采用简洁视觉语法（图标+短标签）描绘关键实体、关系和因果流。帧追加在视频末尾以避免干扰原始内容，同时时间注意力仍可覆盖。指令要求视频内容为权威，推理帧为辅助。不编码时间戳，聚焦结构和机制
- 设计动机：消融实验显示 End-1 最优；Mid 插入破坏时间聚合（MLVU 73.4→67.9）；多帧增加token预算反而降低精度（End-4 降到 69.0）。Minimal 风格最优；Text-Heavy 重新引入上下文负担

损失函数 / 训练策略¶

无训练。整个流程基于冻结骨干+prompt设计。路由判断依赖 prompt 让 Agent 进行任务分解和策略选择。离线图构建用 GPT-4o，路由和子图提取用 GPT-4o-mini。

实验关键数据¶

主实验（跨模型跨任务）¶

模型	原始 VideoMME	+G2F-RAG	原始 WildVideo	+G2F-RAG	原始 MLVU	+G2F-RAG
InternVL3.5-4B	65.4	70.1 (+4.7)	45.2	47.1 (+1.9)	-	-
LLaVA-Video-7B	63.7	64.5 (+0.8)	53.4	57.0 (+3.6)	69.5	75.5
Qwen2.5-VL-7B	65.1	70.6 (+5.5)	51.3	55.4 (+4.1)	68.8	73.4
InternVL3.5-8B	66.0	72.0 (+6.0)	53.0	60.1 (+7.1)	-	-

与其他 RAG 方法对比（Qwen2.5-VL-7B）¶

方法	MLVU	WildVideo	VideoMME
Baseline	68.8	51.3	65.1
+Video-RAG	63.4 (-5.4)	47.2 (-4.1)	60.5 (-4.6)
+Vgent	72.1	50.1	68.9
+G2F-RAG	73.4 (+4.6)	55.4 (+4.1)	70.6 (+5.5)

消融实验（Qwen2.5-VL-7B）¶

消融维度	变体	MLVU	VideoMME
表示方式	G2J-RAG (文本JSON)	66.2	63.0
	G2F-RAG (视觉帧)	73.4	70.6
帧位置	Mid-1	67.9	64.0
	End-4	69.0	66.0
	End-1	73.4	70.6
路由	Off (全部走RAG)	69.9	66.8
	On + Fallback	73.4	70.6

关键发现¶

视觉帧融合 vs 文本JSON：同样的子图、不同交付方式，G2F-RAG 在 VideoMME 上比 G2J-RAG 高 7.6 点，证明"如何融合"比"融合什么"更关键
Video-RAG（追加文本）在所有基准上一致降低性能（MLVU -5.4, WildVideo -4.1, VideoMME -4.6），说明异质信息融合本身就是问题源
小模型获益更大（4B/7B 提升 3-7 点），因为视觉空间融合减少跨模态竞争与模型容量正交
去掉 intent 和 affordance 导致 MLVU 从 73.4 降到 70.2，说明图中的意图和功能字段捕获了有用的前置条件信息
故意输入错误/对抗性推理帧时性能几乎不下降，因为prompt始终要求以原始视频为权威

亮点与洞察¶

"知识交付方式比知识内容更重要"是一个深刻洞察——同样的检索结果，视觉帧比文本JSON高7.6点。这挑战了RAG领域"检索质量决定一切"的隐含假设
免训练设计使方法即插即用到任何LMM骨干（InternVL、LLaVA-Video、Qwen-VL），且不同规模都有一致提升。这种架构级方法比微调更具可迁移性
单帧推理帧的极简设计反直觉地优于多帧注入——信息压缩到最小必要量反而最有效

局限与展望¶

离线图构建依赖 GPT-4o，成本较高且引入闭源模型依赖
路由判断的准确性影响最终效果（误分类会导致简单题走RAG降性能或难题直接答错），当前基于prompt的判断缺乏鲁棒性保证
推理帧的 Graphviz 渲染可能在复杂子图中可读性不足
未在超长视频（>1小时）上验证，知识图的规模和检索精度可能成为瓶颈
外部工具（GPT-4o-mini路由）增加了推理延迟

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次提出将检索知识以视觉帧形式融合到视频推理中，范式级创新
实验充分度: ⭐⭐⭐⭐⭐ 8个基准、多个骨干、详尽消融（表示/位置/风格/路由/图设计），非常全面
写作质量: ⭐⭐⭐⭐⭐ 注意力分析精确揭示问题本质，消融设计细致
价值: ⭐⭐⭐⭐⭐ 提出了全新的RAG范式，对视频理解和多模态推理领域有广泛启发