Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework¶
日期: 2026-03-08
arXiv: 2603.07659
代码: GitHub
领域: 多模态/VLM
关键词: LVLM robustness, counterfactual inference, language bias, language sensitivity, test-time scaling
一句话总结¶
提出 Self-Critical Inference(SCI)框架,通过多轮文本和视觉反事实推理统一解决 LVLM 的语言偏差和语言敏感性问题,同时提出模型自适应的 DRBench 动态鲁棒性评估基准,证明增加反事实推理轮数可持续提升鲁棒性。
研究背景与动机¶
-
领域现状: LVLM 将视觉编码器与预训练 LLM 结合,在 VQA 等任务上表现优秀,但继承了 LLM 的语言偏差(幻觉)和语言敏感性(prompt 微变导致输出改变)问题。
-
现有痛点: (a) VCD 等方法仅针对视觉幻觉(语言偏差),忽略了语言敏感性;(b) 固定鲁棒性 benchmark 不能捕捉不同模型的真实脆弱样本——不同 LVLM 的非鲁棒样本仅有 ~7% 重叠;(c) VCD 使用单次反事实推理,改进空间有限。
-
核心 idea: 将 VCD 解构为 TIE logit 的重加权,在此基础上扩展为文本+视觉双通道多轮反事实推理,建立测试时鲁棒性的 scaling law。
方法详解¶
整体框架¶
SCI = 文本反事实(TC)+ 视觉反事实(VC),通过 \(p_{SCI}(y) \propto \exp(TC/\tau_1) \cdot \exp(VC/\tau_2)\) 融合为统一的解码分布。
关键设计¶
-
VCD 的因果解读:
- 揭示 VCD 本质是 TIE logit 重加权:\(p(y) \propto \exp(Z(v,q)) \cdot \exp(TIE/\tau)\)
- \(\alpha = 1/\tau\) 是温度参数,不是简单的权重
- 这一洞察统一了 VCD 和 CF-VQA 的框架
-
文本反事实(TC):
- 对原始 prompt 生成 N 个语义等价但词汇不同的变体
- \(TC_k = \max_i(Z_k(v^0, q^i))\),取所有变体中 logit 的逐元素最大值
- 确保一致性:对不同 prompt 给出相同答案
-
视觉反事实(VC):
- 生成 M 个去除内容的假图像的视觉 token
- \(VC = Z(v^0, q^0) - \mathbb{E}[Z(v^j, q^0)]\)
- 多个 dummy 图像取平均提供更稳定的偏差估计
-
DRBench 动态基准:
- Bias Subset:原始和 dummy 图像都给错误答案的样本(依赖语言先验)
- Sensitivity Subset:prompt 微变后答案改变的样本
- 模型自适应构建,避免固定 benchmark 的过拟合问题
配置¶
SCI3 (M=N=1), SCI5 (M=N=2), SCI7 (M=N=3),轮数增加 → 鲁棒性持续提升。
实验关键数据¶
主实验(DRBench BS Subset)¶
| 方法 | LLaVA-NeXT Overall | Qwen2-VL Overall |
|---|---|---|
| Baseline | 18.75% | — |
| TIE | 27.31% | — |
| VCD | 27.89% | — |
| SCI3 | 优于 VCD | — |
| SCI5 | 进一步提升 | — |
| SCI7 | 最优 | — |
消融实验¶
| 配置 | 效果 |
|---|---|
| 仅 TC | 改善敏感性但不改善偏差 |
| 仅 VC (=VCD) | 改善偏差但不改善敏感性 |
| TC + VC (SCI) | 同时改善两者 |
| 增加轮数 SCI3→5→7 | 鲁棒性持续提升 |
关键发现¶
- 不同 LVLM 的非鲁棒样本重叠极少(24.68% 中仅 7.34% 共享)→ 固定 benchmark 不可靠
- Qwen2-VL 比 LLaVA-NeXT 整体更鲁棒,但偏差问题更严重
- SCI 在标准 benchmark 上也有改善,不仅限于鲁棒性子集
- 测试时鲁棒性可以通过增加推理轮数 scale
亮点与洞察¶
- VCD 的因果理论统一: 将 VCD、TIE、CF-VQA 纳入统一框架,理论贡献清晰
- 测试时鲁棒性 scaling 是新方向: 不同于增加 CoT 长度的 scaling,增加反事实轮数是正交维度
- DRBench 设计理念: 模型自适应 benchmark 防止过拟合,可应用于任何 LVLM 评估
局限性 / 可改进方向¶
- 推理成本随轮数线性增长(SCI7 = 7 倍推理时间)
- 反事实 prompt 生成依赖模板,质量有限
- 仅在 7B/8B 模型上验证,更大模型的鲁棒性 scaling 效果未知
相关工作与启发¶
- vs VCD: SCI 是 VCD 的严格泛化——VCD = SCI 的 M=1, N=0 特例
- vs M3ID: 同样基于 VCD 思路但 M3ID 用位置相关的 τ,SCI 用多轮推理
- vs test-time scaling: 传统 scaling 增加 token 长度,SCI 增加推理轮数
评分¶
- 新颖性: ⭐⭐⭐⭐ 因果理论统一 + 鲁棒性 scaling 新方向
- 实验充分度: ⭐⭐⭐⭐ 多模型 + 6 个 benchmark + 详细消融
- 写作质量: ⭐⭐⭐⭐ 理论推导严谨,动机清晰
- 价值: ⭐⭐⭐⭐ 对 LVLM 鲁棒部署有实际意义