The Illusion of Progress? A Critical Look at Test-Time Adaptation for Vision-Language Models¶
会议: NeurIPS 2025
arXiv: 2506.24000
代码: https://github.com/TomSheng21/tta-vlm
领域: 多模态VLM / 测试时适应 / Benchmark
关键词: Test-Time Adaptation, CLIP, SigLIP, 可信度, 校准
一句话总结¶
提出TTA-VLM benchmark,在统一实验条件下评估8种episodic和7种online测试时适应(TTA)方法在15个数据集上的表现,发现三个令人意外的结论:(1) 现有TTA方法相比早期TPT基线提升有限;(2) TTA与训练时微调方法协作效果差;(3) 准确率提升以牺牲校准、OOD检测和鲁棒性为代价。
背景与动机¶
VLM的测试时适应(TTA)近年越来越受关注——无需标注数据,推理时直接提升模型表现,看起来很有吸引力。但现有TTA研究存在严重的比较不公问题:不同论文用不同的预训练checkpoint、不同的文本模板、不同的评估协议,还直接引用其他论文的baseline数字而非自己复现。这导致"看似不断进步"可能只是实验设置不一致的幻觉。
更关键的是,几乎所有TTA论文只报告准确率,忽视了实际部署中同样重要的其他指标——校准误差(ECE)、OOD检测能力(AUC)和对抗鲁棒性。有没有可能,TTA方法是以牺牲模型可信度来换取那一点准确率提升?
核心问题¶
在统一公平的评估条件下,现有VLM TTA方法的真实进步有多大?它们在准确率之外的其他维度表现如何? 具体需要回答三个子问题:(1) 把实验设置统一后,排除不公平因素,TTA方法之间和相对于baseline的真实差距有多大?(2) TTA能否与训练时微调方法(如CoOp、MaPLe)良好配合?(3) 准确率提升是否伴随可信度下降?
方法详解¶
整体框架¶
TTA-VLM是一个综合benchmark,不提出新方法,而是提供统一评估框架。覆盖两类TTA范式: - Episodic TTA:逐样本适应,利用单个测试样本的AugMix增强视图(64个)进行即时适应 - Online TTA:流式处理测试数据流(batch size=1),利用历史信息累积适应
关键设计¶
-
统一实验设置: 所有方法使用相同的预训练模型checkpoint、相同的文本模板("a photo of a [CLASS]")、相同的数据增强管线、相同的评估协议。只保留各方法原始推荐的超参数不变。在CLIP-ResNet50/ViT-B/16/ViT-B/32、SigLIP-ViT-B/16四个模型上评估。
-
多维评估指标:
- 准确率: 标准分类准确率
- 校准(ECE): 20-bin ECE,衡量预测置信度与实际正确率的对齐程度
- OOD检测(AUC): 丢弃50%类别,对应样本作为OOD,衡量模型识别未知类别样本的能力
- 对抗鲁棒性: 用PGD攻击生成对抗样本,测试TTA方法的防御效果
-
流式稳定性: Online TTA在混入OOD/对抗样本的数据流中的表现
-
训练时微调+TTA协作评估: 将TTA应用于CoOp、MaPLe、TeCoA微调后的模型,测试两阶段方法是否互补。
涵盖的TTA方法¶
- Episodic (8种): TPT, C-TPT, RLCF, MTA, ZERO, TTL, TPS, R-TPT
- Online (7种): TDA, DMN/DMNW, OnZeta, BoostAdapter, DPE, ECALP, DynaPrompt
实验关键数据¶
公平比较下的准确率(CLIP-ResNet50)¶
| 方法 | 细粒度Avg | ImageNet-X Avg |
|---|---|---|
| CLIP baseline | 55.84% | 44.19% |
| TPT (2022, 开创性工作) | 57.80% | 47.21% |
| ECALP (最佳episodic之一) | 59.38% | 46.06% |
| BoostAdapter (最佳online之一) | 58.60% | 48.07% |
关键发现: TPT(2022年的开创性工作)在公平比较下仍然是最强基线之一,后续方法的平均改进不超过1.5%。
SigLIP上的泛化¶
在SigLIP-ViT-B/16上,大多数TTA方法在细粒度任务上无法超越零样本baseline。仅在ImageNet相关数据集上有3-4%的改进。说明现有TTA方法的设计高度依赖CLIP的特定特性,缺乏泛化性。
与训练时微调的协作¶
| 基底模型 | TTA后最佳Avg | baseline Avg | 提升 |
|---|---|---|---|
| CoOp | 58.86% (BoostAdapter) | 56.20% | +2.66% |
| MaPLe | 67.79% (ECALP) | 64.63% | +3.16% |
| TeCoA | 41.19% (ECALP) | 36.23% | +4.96% |
看似有提升,但几乎所有episodic TTA方法在TeCoA上导致性能下降(负迁移)。DPE在TeCoA上甚至从36.23%暴降到18.18%。
可信度劣化¶
| 方法 | 细粒度ECE↓ | ECE增量 |
|---|---|---|
| CLIP baseline | 5.70% | 0 |
| TPT | 11.30% | +5.60% |
| ECALP | 32.21% | +26.51% |
| TPS | 21.16% | +15.46% |
| C-TPT (专门设计) | 6.61% | +0.91% |
所有TTA方法都增加校准误差,最严重的ECALP把ECE从5.70%提高到32.21%(6倍恶化)。唯一相对可控的是C-TPT(专门设计了校准正则项)。 OOD检测AUC从66.20%下降1-4%。大多数episodic TTA方法在CLIP-ViT上对抗鲁棒性接近0%。
消融实验要点¶
- 多模板策略对大多数TTA方法有额外提升(如ZERO在DTD上+3.1%),但部分online方法反而下降
- TPT在不同backbone上表现不一致(ResNet50上最强但ViT-B/32上较弱),说明架构敏感性被低估
- Online TTA在混入对抗样本的数据流中性能普遍下降1-2%
亮点¶
- 揭示了领域的"虚假进步": 统一实验后发现2022年的TPT仍然是最强基线之一,后续3年的方法改进微乎其微。这对整个TTA社区是一记警钟。
- 首次系统评估TTA的可信度代价: 以前只看准确率,本文第一次量化了校准/OOD检测/鲁棒性的劣化,发现TTA实际上让模型变得更不可靠。
- 跨架构泛化性测试: 首次将TTA方法从CLIP扩展到SigLIP评估,暴露了方法的架构依赖性。
- Benchmark框架设计好: 统一了所有TTA方法的实现和评估管线,代码开源,对后续TTA研究有实际价值。
- 计算开销分析: 定量比较了15种方法的推理时间和GPU显存占用(如DynaPrompt需要1157s和43GB,是CLIP推理的16倍时间和30倍显存)。
局限性 / 可改进方向¶
- 仅覆盖分类任务: 未评估VLM在VQA、image captioning、分割等更广泛任务上的TTA效果。
- 排除了使用额外资源的TTA方法: 利用LLM、生成模型或ImageNet统计信息的方法(可能更强)被排除在外。
- 超参数问题回避了: 所有方法使用原始推荐超参数,但test-time超参数调优本身就是开放问题。
- 正面方向不足: 文章更多是揭示问题,对"如何做更好的TTA"缺乏建设性建议。
- 可以考虑在更大的VLM(如LLaVA、Qwen-VL等生成式VLM)上做类似分析。
与相关工作的对比¶
- TPT (NeurIPS 2022): 本文的"参照系",开创了VLM的test-time prompt tuning。令人惊讶的是,后续方法在公平比较下相对于TPT几乎没有提升。
- MTA (CVPR 2024): 无训练的training-free方法,不需要梯度更新。在本benchmark中表现中等,但鲁棒性较好(24.24%对抗准确率 vs TPT的0.03%)。
- ECALP (ICLR 2025): 准确率最高的online方法之一,但校准最差(ECE增加26.51%),体现了准确率-可信度trade-off。
- C-TPT (ICLR 2024): 专门设计了校准正则项,是唯一在准确率提升同时保持较好校准的方法(ECE仅增加0.91%),值得学习。
启发与关联¶
- 对VLM领域的启示:不要盲目追加TTA模块,有些场景(如已微调模型、需要高校准的场景)TTA可能弊大于利。
- 校准-准确率trade-off是一个值得深入研究的方向——能否设计天然保持校准的TTA方法?C-TPT提供了初步思路。
- Benchmark方法论可迁移:其他VLM任务(如VQA、grounding、video understanding)同样需要這种"冷静回顾型"的benchmark来纠偏。
评分¶
- 新颖性: ⭐⭐⭐ 不提出新方法,但系统性揭示问题本身有价值
- 实验充分度: ⭐⭐⭐⭐⭐ 15种方法×15个数据集×4个模型×multiple指标,实验量巨大十分详尽
- 写作质量: ⭐⭐⭐⭐ 结论清晰有力,但部分表格过多影响可读性
- 价值: ⭐⭐⭐⭐ 对TTA社区是必要的"清醒剂",benchmark框架实用,但缺少建设性的改进方向