跳转至

Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework

会议: CVPR 2026
arXiv: 2603.07659
代码: https://github.com/KaihuaTang/Self-Critical-Inference-Framework
领域: 多模态VLM
关键词: LVLM鲁棒性, 反事实推理, 语言偏差, 语言敏感性, 测试时缩放

一句话总结

提出 Self-Critical Inference (SCI) 框架,通过多轮文本+视觉反事实推理的 logit 聚合来同时解决 LVLM 的语言偏差和语言敏感性问题,并提出 DRBench 动态鲁棒性基准来模型特异地评估鲁棒性。增加反事实推理轮次可持续提升鲁棒性,开辟了测试时缩放的新方向。

研究背景与动机

  1. 领域现状:LVLM 通过将视觉编码器与预训练 LLM 结合并联合微调,取得了强大的视觉语言能力。
  2. 现有痛点
  3. 语言偏差:模型依赖语言先验而非视觉输入回答问题,产生物体幻觉(如生成不存在的内容)
  4. 语言敏感性:对提示词的微小语义等价变化产生不同回答,破坏一致性和可靠性
  5. VCD 等方法只处理视觉反事实(偏差问题),完全忽略了文本反事实(敏感性问题)
  6. 核心矛盾:VCD 本质是对原始 logit 用 TIE logit 进行加权,只有一个维度(视觉)的反事实;但 LVLM 的鲁棒性问题是双维度的。
  7. 本文要解决什么:同时缓解语言偏差和语言敏感性,并发现增加推理轮次可以提升鲁棒性。
  8. 切入角度:从 CF-VQA 的因果分析角度统一理解 VCD,揭示 \(\alpha\) 的物理意义(TIE 的温度参数),然后自然扩展到文本反事实。
  9. 核心idea:VCD = TIE 重加权,那么可以同时做 Textual Counterfactual (TC) 和 Visual Counterfactual (VC),通过多轮 logit 聚合实现测试时鲁棒性缩放。

方法详解

整体框架

给定原始输入 \((v^0, q^0)\),生成 N 个文本变体 \(\{q^i\}\) 和 M 个视觉变体 \(\{v^j\}\),分别计算 TC 和 VC logit,加权相乘得到最终预测:\(p_{SCI}(y) \propto \exp(TC/\tau_1) \cdot \exp(VC/\tau_2)\)

关键设计

  1. VCD 与 CF-VQA 的统一理解:
  2. VCD logit: \(Z_{vcd} = (1+\alpha)Z(v,q) - \alpha Z(v^*,q)\)
  3. 在 exp 域展开:\(p(y) \propto \exp(Z(v,q)) \cdot \exp(TIE/\tau)\)
  4. 揭示 VCD 本质:用 TIE logit 作为词汇级重加权项,\(\tau = 1/\alpha\) 是温度参数
  5. 这个分析桥接了 VCD 和 CF-VQA,为拓展到文本维度提供理论基础

  6. Textual Counterfactual (TC):

  7. 生成语义等价但词汇不同的提示变体 \(\{q^i\}\)
  8. 对每个词汇位置 k,取所有变体 logit 的逐元素最大值:\(TC_k = \max_i(Z_k(v^0, q^i))\)
  9. 效果:消除由特定措辞引起的 logit 偏置,保留跨措辞一致的预测
  10. 设计动机:如果模型对语义相同但措辞不同的提示给出不同答案,取最大值可以选择最稳定的预测

  11. Visual Counterfactual (VC):

  12. 扩展 VCD 为多个反事实图像:\(VC = Z(v^0, q^0) - \mathbb{E}[Z(v^j, q^0)]\)
  13. 用多个内容移除图像的平均 logit 代替单一噪声图像
  14. 更稳定地估计语言偏差

  15. SCI3 / SCI5 / SCI7 配置:

  16. SCI3: M=N=1(3次推理),SCI5: M=N=2(5次),SCI7: M=N=3(7次)
  17. 增加推理轮次持续提升鲁棒性,但计算成本线性增长

损失函数 / 训练策略

纯推理时方法,无需训练。TC 和 VC 的温度参数 \(\tau_1, \tau_2\) 需要在验证集上调整。

实验关键数据

主实验(DRBench BS Subset Overall)

方法 LLaVA-NeXT BS↑ Qwen2-VL BS↑
Baseline 18.75 14.52
TIE 27.31 -
VCD 27.89 -
M3ID 29.05 -
SCI3 32.72 -
SCI5 34.19 -
SCI7 34.92 -

消融分析

配置 效果 说明
仅 VC (≈VCD) 偏差改善但敏感性不变 只解决一半问题
仅 TC 敏感性改善但偏差不变 只解决另一半
VC + TC (SCI) 同时改善两个问题 统一框架的优势
SCI3→SCI5→SCI7 持续提升1-2% 测试时缩放有效

关键发现

  • 偏差与敏感性样本重叠极少:LLaVA-NeXT 的 24.68% 困难样本中仅 7.34% 与 Qwen2-VL 共享,证明鲁棒性是模型特异的
  • Qwen2-VL 整体更鲁棒,但更容易受偏差影响;LLaVA-NeXT 敏感性问题更突出
  • 增加反事实轮次(SCI3→SCI7)持续提升,暗示测试时鲁棒性缩放的潜力未被充分探索
  • TC 和 VC 解决不同类型的鲁棒性问题,缺一不可

亮点与洞察

  • 统一了 VCD 和 CF-VQA:揭示 VCD 就是加了温度缩放的 TIE 重加权,这个分析本身就有独立价值
  • 测试时鲁棒性缩放:不同于传统的测试时缩放(增加中间 token 长度),通过增加反事实推理轮次来提升鲁棒性。这开辟了与 CoT 扩展正交的新方向
  • DRBench 的设计思想:动态、模型特异的 benchmark,可以自动从任何数据集转化,解决了固定 benchmark 被后续模型训练数据包含的问题
  • 方法与模型无关,可以直接插入任何 LVLM 推理流程

局限性 / 可改进方向

  • 推理成本线性增长:SCI7 需要 7 次前向传播
  • 文本变体和视觉变体的生成策略相对简单,更先进的反事实生成可能进一步提升
  • 温度参数 \(\tau_1, \tau_2\) 需要人工调优
  • DRBench 依赖特定的反事实生成方法来构建偏差和敏感性子集

相关工作与启发

  • vs VCD:VCD 是 SCI 的特例(N=0, M=1),SCI 扩展了反事实维度并引入了测试时缩放
  • vs CF-VQA / TDE:在传统 VQA 中使用因果分析去偏,本文证明同样的思想适用于 LVLM 并且可以自然扩展到语言敏感性

评分

  • 新颖性: ⭐⭐⭐⭐ 统一分析有洞察力,测试时缩放方向新颖
  • 实验充分度: ⭐⭐⭐⭐ 6个数据集两个模型,DRBench设计合理
  • 写作质量: ⭐⭐⭐⭐⭐ 理论分析精彩,从VCD到SCI的推导自然
  • 价值: ⭐⭐⭐⭐ 实用的推理时鲁棒性增强方法