RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations¶

会议: CVPR 2026
arXiv: 2602.22013
代码: https://robustvisrag.github.io/
领域: 多模态VLM
关键词: VisRAG, 鲁棒性, 因果推理, 视觉退化, 双路径编码

一句话总结¶

提出 RobustVisRAG，一个因果引导的双路径框架，通过非因果路径捕获退化信号、因果路径学习纯净语义来解耦 VisRAG 中的语义-退化纠缠，在真实世界退化条件下检索、生成和端到端性能分别提升 7.35%、6.35% 和 12.40%，同时保持干净数据上的性能。

领域现状：VisRAG 通过 VLM 直接编码文档图像进行检索和生成，避免了 OCR 错误，已成为文档问答的主流方案。
现有痛点：
TextRAG 和 VisRAG 在退化输入（模糊、噪声、低光、阴影等）下性能显著下降
VisRAG 中视觉编码器的语义和退化因素纠缠：退化扭曲嵌入空间，导致检索不匹配和生成不稳定
双重失败模式：可能检索到错误文档（退化污染表示），即使检索正确也可能生成错误（退化误导推理）
核心矛盾：现有 VLM 编码器的表示空间中语义因素 S 和退化因素 D 纠缠在一起。由于观测到的图像 X 是 S 和 D 的碰撞节点，条件化于 Z 会打开非因果路径 \(S \leftrightarrow D\)。
本文要解决什么：在不增加推理成本的条件下，让 VisRAG 在退化输入下保持鲁棒，同时不损害干净输入性能。
切入角度：用结构因果模型分析退化如何影响 VisRAG，然后通过因果干预（do-operator）切断非因果路径。
核心idea：学习分解表示 \(Z = [Z_{sem}, Z_{deg}]\)，使语义成分不受退化影响，等效于因果干预 \(P(A|do(D=d_0))\)。

在 VLM 视觉编码器中引入双路径架构：非因果路径（Non-Causal Path）用单向注意力提取退化表示；因果路径（Causal Path）用双向注意力编码纯净语义。两个路径通过 NCDM 和 CSA 两个学习目标联合优化。

非因果路径（Non-Causal Path）:
引入可学习的非因果 token \(z_{nc}^{(0)}\)
单向注意力约束：非因果 token 可以关注所有 patch token，但 patch token 不能关注非因果 token
聚合退化线索：\(z_{nc}^{(l+1)} = z_{nc}^{(l)} + \sum_j \alpha_{nc \leftarrow j}^{(l)} v_j^{(l)}\)
最终退化表示 \(Z_{deg} = z_{nc}^{(L)}\)
设计动机：单向注意力防止退化信息回流到语义 token，实现结构化隔离
因果路径（Causal Path）:
patch token 间双向注意力，排除非因果 token
语义表示 \(Z_{sem} = \text{Agg}(x_1^{(L)}, ..., x_T^{(L)})\)
应遵循因果路径 \(S \to Z_{sem}\)，不受退化影响
Non-Causal Distortion Modeling (NCDM):
退化对比学习目标：同退化类型拉近，不同退化类型推远
\(\mathcal{L}_{NCDM} = \max(0, \|Z_{deg}^a - Z_{deg}^p\|_2^2 - \|Z_{deg}^a - Z_{deg}^n\|_2^2 + \delta)\)
确保非因果 token 真正学会编码退化特征模式
Causal Semantic Alignment (CSA):
对齐退化图像和干净图像的语义表示，防止退化泄漏到因果路径
使 \(Z_{sem}\) 在退化条件下保持稳定

联合优化 NCDM + CSA + 原始的检索/生成损失。两个路径在同一前向传播中同时产出 \(Z_{sem}\) 和 \(Z_{deg}\)，无额外推理开销。

方法	检索(Real-Degrade)	生成(Real-Degrade)	端到端(Real-Degrade)
VisRAG baseline	~70%	~55%	~45%
VisRAG-FT (full finetune)	~73%	~57%	~48%
Two-Stage Restoration	~72%	~56%	~47%
RobustVisRAG	~77%	~61%	~57%
提升	+7.35%	+6.35%	+12.40%

因果建模的优雅应用：用 SCM 分析 VisRAG 中的退化传播路径，从理论上推导出表示分解的必要性，再将理论转化为具体的网络设计（非因果 token + 单向注意力），理论与实践衔接紧密
Distortion-VisRAG 数据集：首个专门为退化条件下的 VisRAG 设计的 benchmark，包含合成和真实退化，填补了评估空白
零额外推理开销：因果和非因果路径在同一前向传播中完成，推理时只取 \(Z_{sem}\)，非常实用