RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations¶
会议: CVPR 2026
arXiv: 2602.22013
代码: https://robustvisrag.github.io/
领域: 多模态VLM
关键词: VisRAG, 鲁棒性, 因果推理, 视觉退化, 双路径编码
一句话总结¶
提出 RobustVisRAG,一个因果引导的双路径框架,通过非因果路径捕获退化信号、因果路径学习纯净语义来解耦 VisRAG 中的语义-退化纠缠,在真实世界退化条件下检索、生成和端到端性能分别提升 7.35%、6.35% 和 12.40%,同时保持干净数据上的性能。
研究背景与动机¶
- 领域现状:VisRAG 通过 VLM 直接编码文档图像进行检索和生成,避免了 OCR 错误,已成为文档问答的主流方案。
- 现有痛点:
- TextRAG 和 VisRAG 在退化输入(模糊、噪声、低光、阴影等)下性能显著下降
- VisRAG 中视觉编码器的语义和退化因素纠缠:退化扭曲嵌入空间,导致检索不匹配和生成不稳定
- 双重失败模式:可能检索到错误文档(退化污染表示),即使检索正确也可能生成错误(退化误导推理)
- 核心矛盾:现有 VLM 编码器的表示空间中语义因素 S 和退化因素 D 纠缠在一起。由于观测到的图像 X 是 S 和 D 的碰撞节点,条件化于 Z 会打开非因果路径 \(S \leftrightarrow D\)。
- 本文要解决什么:在不增加推理成本的条件下,让 VisRAG 在退化输入下保持鲁棒,同时不损害干净输入性能。
- 切入角度:用结构因果模型分析退化如何影响 VisRAG,然后通过因果干预(do-operator)切断非因果路径。
- 核心idea:学习分解表示 \(Z = [Z_{sem}, Z_{deg}]\),使语义成分不受退化影响,等效于因果干预 \(P(A|do(D=d_0))\)。
方法详解¶
整体框架¶
在 VLM 视觉编码器中引入双路径架构:非因果路径(Non-Causal Path)用单向注意力提取退化表示;因果路径(Causal Path)用双向注意力编码纯净语义。两个路径通过 NCDM 和 CSA 两个学习目标联合优化。
关键设计¶
- 非因果路径(Non-Causal Path):
- 引入可学习的非因果 token \(z_{nc}^{(0)}\)
- 单向注意力约束:非因果 token 可以关注所有 patch token,但 patch token 不能关注非因果 token
- 聚合退化线索:\(z_{nc}^{(l+1)} = z_{nc}^{(l)} + \sum_j \alpha_{nc \leftarrow j}^{(l)} v_j^{(l)}\)
- 最终退化表示 \(Z_{deg} = z_{nc}^{(L)}\)
-
设计动机:单向注意力防止退化信息回流到语义 token,实现结构化隔离
-
因果路径(Causal Path):
- patch token 间双向注意力,排除非因果 token
- 语义表示 \(Z_{sem} = \text{Agg}(x_1^{(L)}, ..., x_T^{(L)})\)
-
应遵循因果路径 \(S \to Z_{sem}\),不受退化影响
-
Non-Causal Distortion Modeling (NCDM):
- 退化对比学习目标:同退化类型拉近,不同退化类型推远
- \(\mathcal{L}_{NCDM} = \max(0, \|Z_{deg}^a - Z_{deg}^p\|_2^2 - \|Z_{deg}^a - Z_{deg}^n\|_2^2 + \delta)\)
-
确保非因果 token 真正学会编码退化特征模式
-
Causal Semantic Alignment (CSA):
- 对齐退化图像和干净图像的语义表示,防止退化泄漏到因果路径
- 使 \(Z_{sem}\) 在退化条件下保持稳定
损失函数 / 训练策略¶
联合优化 NCDM + CSA + 原始的检索/生成损失。两个路径在同一前向传播中同时产出 \(Z_{sem}\) 和 \(Z_{deg}\),无额外推理开销。
实验关键数据¶
主实验¶
| 方法 | 检索(Real-Degrade) | 生成(Real-Degrade) | 端到端(Real-Degrade) |
|---|---|---|---|
| VisRAG baseline | ~70% | ~55% | ~45% |
| VisRAG-FT (full finetune) | ~73% | ~57% | ~48% |
| Two-Stage Restoration | ~72% | ~56% | ~47% |
| RobustVisRAG | ~77% | ~61% | ~57% |
| 提升 | +7.35% | +6.35% | +12.40% |
Distortion-VisRAG 数据集¶
| 属性 | 值 |
|---|---|
| 问答对 | 367K |
| 文档类型 | 7 个领域(论文、图表、表格、幻灯片、手写笔记等) |
| 合成退化 | 12 种(模糊、噪声、压缩等) |
| 真实退化 | 5 种(低光、阴影、纸张损坏等) |
| 多严重度级别 | ✓ |
关键发现¶
- RobustVisRAG 在干净数据上性能不下降,说明因果分离没有损害正常理解能力
- 图像修复方法(Two-Stage)的感知质量提升不一定转化为检索/生成增益
- 全参数微调(FFT)虽然提升退化鲁棒性但会遗忘预训练知识,且无法分离语义和退化
- 端到端提升(12.40%)远大于检索和生成的单独提升,说明两级改善有叠加效应
亮点与洞察¶
- 因果建模的优雅应用:用 SCM 分析 VisRAG 中的退化传播路径,从理论上推导出表示分解的必要性,再将理论转化为具体的网络设计(非因果 token + 单向注意力),理论与实践衔接紧密
- Distortion-VisRAG 数据集:首个专门为退化条件下的 VisRAG 设计的 benchmark,包含合成和真实退化,填补了评估空白
- 零额外推理开销:因果和非因果路径在同一前向传播中完成,推理时只取 \(Z_{sem}\),非常实用
局限性 / 可改进方向¶
- 非因果路径的退化建模用简单的对比学习,对复杂的退化混合可能不够
- 训练需要退化-干净配对数据(或退化类型标签),实际场景中获取成本较高
- 对未见过的退化类型的泛化能力有待验证
- 当前只处理文档图像,自然场景图像的退化鲁棒性未涉及
相关工作与启发¶
- vs TeCoA / FARE(对抗鲁棒性):它们针对 \(\ell_p\) 范数约束的小扰动,不适用于自然退化(模糊、低光、阴影)。RobustVisRAG 通过学习退化表示来应对更广泛的退化类型
- vs 直接图像修复 → VisRAG 管线:修复出的图像感知质量提升但不保证语义一致性,而 RobustVisRAG 直接在编码器层面实现语义保护
评分¶
- 新颖性: ⭐⭐⭐⭐ 因果建模+双路径编码器的组合新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 构建了完整benchmark,合成+真实退化
- 写作质量: ⭐⭐⭐⭐ 因果分析部分形式化严谨
- 价值: ⭐⭐⭐⭐ VisRAG鲁棒性是重要的实用问题