跳转至

RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations

会议: CVPR 2026
arXiv: 2602.22013
代码: https://robustvisrag.github.io/
领域: 多模态VLM
关键词: VisRAG, 鲁棒性, 因果推理, 视觉退化, 双路径编码

一句话总结

提出 RobustVisRAG,一个因果引导的双路径框架,通过非因果路径捕获退化信号、因果路径学习纯净语义来解耦 VisRAG 中的语义-退化纠缠,在真实世界退化条件下检索、生成和端到端性能分别提升 7.35%、6.35% 和 12.40%,同时保持干净数据上的性能。

研究背景与动机

  1. 领域现状:VisRAG 通过 VLM 直接编码文档图像进行检索和生成,避免了 OCR 错误,已成为文档问答的主流方案。
  2. 现有痛点
  3. TextRAG 和 VisRAG 在退化输入(模糊、噪声、低光、阴影等)下性能显著下降
  4. VisRAG 中视觉编码器的语义和退化因素纠缠:退化扭曲嵌入空间,导致检索不匹配和生成不稳定
  5. 双重失败模式:可能检索到错误文档(退化污染表示),即使检索正确也可能生成错误(退化误导推理)
  6. 核心矛盾:现有 VLM 编码器的表示空间中语义因素 S 和退化因素 D 纠缠在一起。由于观测到的图像 X 是 S 和 D 的碰撞节点,条件化于 Z 会打开非因果路径 \(S \leftrightarrow D\)
  7. 本文要解决什么:在不增加推理成本的条件下,让 VisRAG 在退化输入下保持鲁棒,同时不损害干净输入性能。
  8. 切入角度:用结构因果模型分析退化如何影响 VisRAG,然后通过因果干预(do-operator)切断非因果路径。
  9. 核心idea:学习分解表示 \(Z = [Z_{sem}, Z_{deg}]\),使语义成分不受退化影响,等效于因果干预 \(P(A|do(D=d_0))\)

方法详解

整体框架

在 VLM 视觉编码器中引入双路径架构:非因果路径(Non-Causal Path)用单向注意力提取退化表示;因果路径(Causal Path)用双向注意力编码纯净语义。两个路径通过 NCDM 和 CSA 两个学习目标联合优化。

关键设计

  1. 非因果路径(Non-Causal Path):
  2. 引入可学习的非因果 token \(z_{nc}^{(0)}\)
  3. 单向注意力约束:非因果 token 可以关注所有 patch token,但 patch token 不能关注非因果 token
  4. 聚合退化线索:\(z_{nc}^{(l+1)} = z_{nc}^{(l)} + \sum_j \alpha_{nc \leftarrow j}^{(l)} v_j^{(l)}\)
  5. 最终退化表示 \(Z_{deg} = z_{nc}^{(L)}\)
  6. 设计动机:单向注意力防止退化信息回流到语义 token,实现结构化隔离

  7. 因果路径(Causal Path):

  8. patch token 间双向注意力,排除非因果 token
  9. 语义表示 \(Z_{sem} = \text{Agg}(x_1^{(L)}, ..., x_T^{(L)})\)
  10. 应遵循因果路径 \(S \to Z_{sem}\),不受退化影响

  11. Non-Causal Distortion Modeling (NCDM):

  12. 退化对比学习目标:同退化类型拉近,不同退化类型推远
  13. \(\mathcal{L}_{NCDM} = \max(0, \|Z_{deg}^a - Z_{deg}^p\|_2^2 - \|Z_{deg}^a - Z_{deg}^n\|_2^2 + \delta)\)
  14. 确保非因果 token 真正学会编码退化特征模式

  15. Causal Semantic Alignment (CSA):

  16. 对齐退化图像和干净图像的语义表示,防止退化泄漏到因果路径
  17. 使 \(Z_{sem}\) 在退化条件下保持稳定

损失函数 / 训练策略

联合优化 NCDM + CSA + 原始的检索/生成损失。两个路径在同一前向传播中同时产出 \(Z_{sem}\)\(Z_{deg}\),无额外推理开销。

实验关键数据

主实验

方法 检索(Real-Degrade) 生成(Real-Degrade) 端到端(Real-Degrade)
VisRAG baseline ~70% ~55% ~45%
VisRAG-FT (full finetune) ~73% ~57% ~48%
Two-Stage Restoration ~72% ~56% ~47%
RobustVisRAG ~77% ~61% ~57%
提升 +7.35% +6.35% +12.40%

Distortion-VisRAG 数据集

属性
问答对 367K
文档类型 7 个领域(论文、图表、表格、幻灯片、手写笔记等)
合成退化 12 种(模糊、噪声、压缩等)
真实退化 5 种(低光、阴影、纸张损坏等)
多严重度级别

关键发现

  • RobustVisRAG 在干净数据上性能不下降,说明因果分离没有损害正常理解能力
  • 图像修复方法(Two-Stage)的感知质量提升不一定转化为检索/生成增益
  • 全参数微调(FFT)虽然提升退化鲁棒性但会遗忘预训练知识,且无法分离语义和退化
  • 端到端提升(12.40%)远大于检索和生成的单独提升,说明两级改善有叠加效应

亮点与洞察

  • 因果建模的优雅应用:用 SCM 分析 VisRAG 中的退化传播路径,从理论上推导出表示分解的必要性,再将理论转化为具体的网络设计(非因果 token + 单向注意力),理论与实践衔接紧密
  • Distortion-VisRAG 数据集:首个专门为退化条件下的 VisRAG 设计的 benchmark,包含合成和真实退化,填补了评估空白
  • 零额外推理开销:因果和非因果路径在同一前向传播中完成,推理时只取 \(Z_{sem}\),非常实用

局限性 / 可改进方向

  • 非因果路径的退化建模用简单的对比学习,对复杂的退化混合可能不够
  • 训练需要退化-干净配对数据(或退化类型标签),实际场景中获取成本较高
  • 对未见过的退化类型的泛化能力有待验证
  • 当前只处理文档图像,自然场景图像的退化鲁棒性未涉及

相关工作与启发

  • vs TeCoA / FARE(对抗鲁棒性):它们针对 \(\ell_p\) 范数约束的小扰动,不适用于自然退化(模糊、低光、阴影)。RobustVisRAG 通过学习退化表示来应对更广泛的退化类型
  • vs 直接图像修复 → VisRAG 管线:修复出的图像感知质量提升但不保证语义一致性,而 RobustVisRAG 直接在编码器层面实现语义保护

评分

  • 新颖性: ⭐⭐⭐⭐ 因果建模+双路径编码器的组合新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 构建了完整benchmark,合成+真实退化
  • 写作质量: ⭐⭐⭐⭐ 因果分析部分形式化严谨
  • 价值: ⭐⭐⭐⭐ VisRAG鲁棒性是重要的实用问题