跳转至

The Illusion of Progress? A Critical Look at Test-Time Adaptation for Vision-Language Models

会议: NeurIPS 2025
arXiv: 2506.24000
代码: https://github.com/TomSheng21/tta-vlm
领域: 多模态VLM / 测试时适应 / Benchmark
关键词: Test-Time Adaptation, CLIP, SigLIP, 可信度, 校准

一句话总结

提出TTA-VLM benchmark,在统一实验条件下评估8种episodic和7种online测试时适应(TTA)方法在15个数据集上的表现,发现三个令人意外的结论:(1) 现有TTA方法相比早期TPT基线提升有限;(2) TTA与训练时微调方法协作效果差;(3) 准确率提升以牺牲校准、OOD检测和鲁棒性为代价。

背景与动机

VLM的测试时适应(TTA)近年越来越受关注——无需标注数据,推理时直接提升模型表现,看起来很有吸引力。但现有TTA研究存在严重的比较不公问题:不同论文用不同的预训练checkpoint、不同的文本模板、不同的评估协议,还直接引用其他论文的baseline数字而非自己复现。这导致"看似不断进步"可能只是实验设置不一致的幻觉。

更关键的是,几乎所有TTA论文只报告准确率,忽视了实际部署中同样重要的其他指标——校准误差(ECE)、OOD检测能力(AUC)和对抗鲁棒性。有没有可能,TTA方法是以牺牲模型可信度来换取那一点准确率提升?

核心问题

在统一公平的评估条件下,现有VLM TTA方法的真实进步有多大?它们在准确率之外的其他维度表现如何? 具体需要回答三个子问题:(1) 把实验设置统一后,排除不公平因素,TTA方法之间和相对于baseline的真实差距有多大?(2) TTA能否与训练时微调方法(如CoOp、MaPLe)良好配合?(3) 准确率提升是否伴随可信度下降?

方法详解

整体框架

TTA-VLM是一个综合benchmark,不提出新方法,而是提供统一评估框架。覆盖两类TTA范式: - Episodic TTA:逐样本适应,利用单个测试样本的AugMix增强视图(64个)进行即时适应 - Online TTA:流式处理测试数据流(batch size=1),利用历史信息累积适应

关键设计

  1. 统一实验设置: 所有方法使用相同的预训练模型checkpoint、相同的文本模板("a photo of a [CLASS]")、相同的数据增强管线、相同的评估协议。只保留各方法原始推荐的超参数不变。在CLIP-ResNet50/ViT-B/16/ViT-B/32、SigLIP-ViT-B/16四个模型上评估。

  2. 多维评估指标:

  3. 准确率: 标准分类准确率
  4. 校准(ECE): 20-bin ECE,衡量预测置信度与实际正确率的对齐程度
  5. OOD检测(AUC): 丢弃50%类别,对应样本作为OOD,衡量模型识别未知类别样本的能力
  6. 对抗鲁棒性: 用PGD攻击生成对抗样本,测试TTA方法的防御效果
  7. 流式稳定性: Online TTA在混入OOD/对抗样本的数据流中的表现

  8. 训练时微调+TTA协作评估: 将TTA应用于CoOp、MaPLe、TeCoA微调后的模型,测试两阶段方法是否互补。

涵盖的TTA方法

  • Episodic (8种): TPT, C-TPT, RLCF, MTA, ZERO, TTL, TPS, R-TPT
  • Online (7种): TDA, DMN/DMNW, OnZeta, BoostAdapter, DPE, ECALP, DynaPrompt

实验关键数据

公平比较下的准确率(CLIP-ResNet50)

方法 细粒度Avg ImageNet-X Avg
CLIP baseline 55.84% 44.19%
TPT (2022, 开创性工作) 57.80% 47.21%
ECALP (最佳episodic之一) 59.38% 46.06%
BoostAdapter (最佳online之一) 58.60% 48.07%

关键发现: TPT(2022年的开创性工作)在公平比较下仍然是最强基线之一,后续方法的平均改进不超过1.5%。

SigLIP上的泛化

在SigLIP-ViT-B/16上,大多数TTA方法在细粒度任务上无法超越零样本baseline。仅在ImageNet相关数据集上有3-4%的改进。说明现有TTA方法的设计高度依赖CLIP的特定特性,缺乏泛化性。

与训练时微调的协作

基底模型 TTA后最佳Avg baseline Avg 提升
CoOp 58.86% (BoostAdapter) 56.20% +2.66%
MaPLe 67.79% (ECALP) 64.63% +3.16%
TeCoA 41.19% (ECALP) 36.23% +4.96%

看似有提升,但几乎所有episodic TTA方法在TeCoA上导致性能下降(负迁移)。DPE在TeCoA上甚至从36.23%暴降到18.18%。

可信度劣化

方法 细粒度ECE↓ ECE增量
CLIP baseline 5.70% 0
TPT 11.30% +5.60%
ECALP 32.21% +26.51%
TPS 21.16% +15.46%
C-TPT (专门设计) 6.61% +0.91%

所有TTA方法都增加校准误差,最严重的ECALP把ECE从5.70%提高到32.21%(6倍恶化)。唯一相对可控的是C-TPT(专门设计了校准正则项)。 OOD检测AUC从66.20%下降1-4%。大多数episodic TTA方法在CLIP-ViT上对抗鲁棒性接近0%。

消融实验要点

  • 多模板策略对大多数TTA方法有额外提升(如ZERO在DTD上+3.1%),但部分online方法反而下降
  • TPT在不同backbone上表现不一致(ResNet50上最强但ViT-B/32上较弱),说明架构敏感性被低估
  • Online TTA在混入对抗样本的数据流中性能普遍下降1-2%

亮点

  • 揭示了领域的"虚假进步": 统一实验后发现2022年的TPT仍然是最强基线之一,后续3年的方法改进微乎其微。这对整个TTA社区是一记警钟。
  • 首次系统评估TTA的可信度代价: 以前只看准确率,本文第一次量化了校准/OOD检测/鲁棒性的劣化,发现TTA实际上让模型变得更不可靠。
  • 跨架构泛化性测试: 首次将TTA方法从CLIP扩展到SigLIP评估,暴露了方法的架构依赖性。
  • Benchmark框架设计好: 统一了所有TTA方法的实现和评估管线,代码开源,对后续TTA研究有实际价值。
  • 计算开销分析: 定量比较了15种方法的推理时间和GPU显存占用(如DynaPrompt需要1157s和43GB,是CLIP推理的16倍时间和30倍显存)。

局限性 / 可改进方向

  • 仅覆盖分类任务: 未评估VLM在VQA、image captioning、分割等更广泛任务上的TTA效果。
  • 排除了使用额外资源的TTA方法: 利用LLM、生成模型或ImageNet统计信息的方法(可能更强)被排除在外。
  • 超参数问题回避了: 所有方法使用原始推荐超参数,但test-time超参数调优本身就是开放问题。
  • 正面方向不足: 文章更多是揭示问题,对"如何做更好的TTA"缺乏建设性建议。
  • 可以考虑在更大的VLM(如LLaVA、Qwen-VL等生成式VLM)上做类似分析

与相关工作的对比

  • TPT (NeurIPS 2022): 本文的"参照系",开创了VLM的test-time prompt tuning。令人惊讶的是,后续方法在公平比较下相对于TPT几乎没有提升。
  • MTA (CVPR 2024): 无训练的training-free方法,不需要梯度更新。在本benchmark中表现中等,但鲁棒性较好(24.24%对抗准确率 vs TPT的0.03%)。
  • ECALP (ICLR 2025): 准确率最高的online方法之一,但校准最差(ECE增加26.51%),体现了准确率-可信度trade-off。
  • C-TPT (ICLR 2024): 专门设计了校准正则项,是唯一在准确率提升同时保持较好校准的方法(ECE仅增加0.91%),值得学习。

启发与关联

  • 对VLM领域的启示:不要盲目追加TTA模块,有些场景(如已微调模型、需要高校准的场景)TTA可能弊大于利。
  • 校准-准确率trade-off是一个值得深入研究的方向——能否设计天然保持校准的TTA方法?C-TPT提供了初步思路。
  • Benchmark方法论可迁移:其他VLM任务(如VQA、grounding、video understanding)同样需要這种"冷静回顾型"的benchmark来纠偏。

评分

  • 新颖性: ⭐⭐⭐ 不提出新方法,但系统性揭示问题本身有价值
  • 实验充分度: ⭐⭐⭐⭐⭐ 15种方法×15个数据集×4个模型×multiple指标,实验量巨大十分详尽
  • 写作质量: ⭐⭐⭐⭐ 结论清晰有力,但部分表格过多影响可读性
  • 价值: ⭐⭐⭐⭐ 对TTA社区是必要的"清醒剂",benchmark框架实用,但缺少建设性的改进方向