Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework¶

会议: CVPR 2026
arXiv: 2603.07659
代码: https://github.com/KaihuaTang/Self-Critical-Inference-Framework
领域: 多模态VLM
关键词: LVLM鲁棒性, 反事实推理, 语言偏差, 语言敏感性, 测试时缩放

一句话总结¶

提出 Self-Critical Inference (SCI) 框架，通过多轮文本+视觉反事实推理的 logit 聚合来同时解决 LVLM 的语言偏差和语言敏感性问题，并提出 DRBench 动态鲁棒性基准来模型特异地评估鲁棒性。增加反事实推理轮次可持续提升鲁棒性，开辟了测试时缩放的新方向。

研究背景与动机¶

领域现状：LVLM 通过将视觉编码器与预训练 LLM 结合并联合微调，取得了强大的视觉语言能力。
现有痛点：
语言偏差：模型依赖语言先验而非视觉输入回答问题，产生物体幻觉（如生成不存在的内容）
语言敏感性：对提示词的微小语义等价变化产生不同回答，破坏一致性和可靠性
VCD 等方法只处理视觉反事实（偏差问题），完全忽略了文本反事实（敏感性问题）
核心矛盾：VCD 本质是对原始 logit 用 TIE logit 进行加权，只有一个维度（视觉）的反事实；但 LVLM 的鲁棒性问题是双维度的。
本文要解决什么：同时缓解语言偏差和语言敏感性，并发现增加推理轮次可以提升鲁棒性。
切入角度：从 CF-VQA 的因果分析角度统一理解 VCD，揭示 \(\alpha\) 的物理意义（TIE 的温度参数），然后自然扩展到文本反事实。
核心idea：VCD = TIE 重加权，那么可以同时做 Textual Counterfactual (TC) 和 Visual Counterfactual (VC)，通过多轮 logit 聚合实现测试时鲁棒性缩放。

方法详解¶

整体框架¶

给定原始输入 \((v^0, q^0)\)，生成 N 个文本变体 \(\{q^i\}\) 和 M 个视觉变体 \(\{v^j\}\)，分别计算 TC 和 VC logit，加权相乘得到最终预测：\(p_{SCI}(y) \propto \exp(TC/\tau_1) \cdot \exp(VC/\tau_2)\)。

关键设计¶

VCD 与 CF-VQA 的统一理解:
VCD logit: \(Z_{vcd} = (1+\alpha)Z(v,q) - \alpha Z(v^*,q)\)
在 exp 域展开：\(p(y) \propto \exp(Z(v,q)) \cdot \exp(TIE/\tau)\)
揭示 VCD 本质：用 TIE logit 作为词汇级重加权项，\(\tau = 1/\alpha\) 是温度参数
这个分析桥接了 VCD 和 CF-VQA，为拓展到文本维度提供理论基础
Textual Counterfactual (TC):
生成语义等价但词汇不同的提示变体 \(\{q^i\}\)
对每个词汇位置 k，取所有变体 logit 的逐元素最大值：\(TC_k = \max_i(Z_k(v^0, q^i))\)
效果：消除由特定措辞引起的 logit 偏置，保留跨措辞一致的预测
设计动机：如果模型对语义相同但措辞不同的提示给出不同答案，取最大值可以选择最稳定的预测
Visual Counterfactual (VC):
扩展 VCD 为多个反事实图像：\(VC = Z(v^0, q^0) - \mathbb{E}[Z(v^j, q^0)]\)
用多个内容移除图像的平均 logit 代替单一噪声图像
更稳定地估计语言偏差
SCI3 / SCI5 / SCI7 配置:
SCI3: M=N=1（3次推理），SCI5: M=N=2（5次），SCI7: M=N=3（7次）
增加推理轮次持续提升鲁棒性，但计算成本线性增长

损失函数 / 训练策略¶

纯推理时方法，无需训练。TC 和 VC 的温度参数 \(\tau_1, \tau_2\) 需要在验证集上调整。

实验关键数据¶

主实验（DRBench BS Subset Overall）¶

方法	LLaVA-NeXT BS↑	Qwen2-VL BS↑
Baseline	18.75	14.52
TIE	27.31	-
VCD	27.89	-
M3ID	29.05	-
SCI3	32.72	-
SCI5	34.19	-
SCI7	34.92	-

消融分析¶

配置	效果	说明
仅 VC (≈VCD)	偏差改善但敏感性不变	只解决一半问题
仅 TC	敏感性改善但偏差不变	只解决另一半
VC + TC (SCI)	同时改善两个问题	统一框架的优势
SCI3→SCI5→SCI7	持续提升1-2%	测试时缩放有效

关键发现¶

偏差与敏感性样本重叠极少：LLaVA-NeXT 的 24.68% 困难样本中仅 7.34% 与 Qwen2-VL 共享，证明鲁棒性是模型特异的
Qwen2-VL 整体更鲁棒，但更容易受偏差影响；LLaVA-NeXT 敏感性问题更突出
增加反事实轮次（SCI3→SCI7）持续提升，暗示测试时鲁棒性缩放的潜力未被充分探索
TC 和 VC 解决不同类型的鲁棒性问题，缺一不可

亮点与洞察¶

统一了 VCD 和 CF-VQA：揭示 VCD 就是加了温度缩放的 TIE 重加权，这个分析本身就有独立价值
测试时鲁棒性缩放：不同于传统的测试时缩放（增加中间 token 长度），通过增加反事实推理轮次来提升鲁棒性。这开辟了与 CoT 扩展正交的新方向
DRBench 的设计思想：动态、模型特异的 benchmark，可以自动从任何数据集转化，解决了固定 benchmark 被后续模型训练数据包含的问题
方法与模型无关，可以直接插入任何 LVLM 推理流程

局限性 / 可改进方向¶

推理成本线性增长：SCI7 需要 7 次前向传播
文本变体和视觉变体的生成策略相对简单，更先进的反事实生成可能进一步提升
温度参数 \(\tau_1, \tau_2\) 需要人工调优
DRBench 依赖特定的反事实生成方法来构建偏差和敏感性子集

评分¶

新颖性: ⭐⭐⭐⭐ 统一分析有洞察力，测试时缩放方向新颖
实验充分度: ⭐⭐⭐⭐ 6个数据集两个模型，DRBench设计合理
写作质量: ⭐⭐⭐⭐⭐ 理论分析精彩，从VCD到SCI的推导自然
价值: ⭐⭐⭐⭐ 实用的推理时鲁棒性增强方法