The Illusion of Progress? A Critical Look at Test-Time Adaptation for Vision-Language Models¶

会议: NeurIPS 2025
arXiv: 2506.24000
代码: https://github.com/TomSheng21/tta-vlm
领域: 多模态VLM / 测试时适应 / Benchmark
关键词: Test-Time Adaptation, CLIP, SigLIP, 可信度, 校准

一句话总结¶

提出TTA-VLM benchmark，在统一实验条件下评估8种episodic和7种online测试时适应(TTA)方法在15个数据集上的表现，发现三个令人意外的结论：(1) 现有TTA方法相比早期TPT基线提升有限；(2) TTA与训练时微调方法协作效果差；(3) 准确率提升以牺牲校准、OOD检测和鲁棒性为代价。

背景与动机¶

VLM的测试时适应(TTA)近年越来越受关注——无需标注数据，推理时直接提升模型表现，看起来很有吸引力。但现有TTA研究存在严重的比较不公问题：不同论文用不同的预训练checkpoint、不同的文本模板、不同的评估协议，还直接引用其他论文的baseline数字而非自己复现。这导致"看似不断进步"可能只是实验设置不一致的幻觉。

更关键的是，几乎所有TTA论文只报告准确率，忽视了实际部署中同样重要的其他指标——校准误差(ECE)、OOD检测能力(AUC)和对抗鲁棒性。有没有可能，TTA方法是以牺牲模型可信度来换取那一点准确率提升？

核心问题¶

在统一公平的评估条件下，现有VLM TTA方法的真实进步有多大？它们在准确率之外的其他维度表现如何？ 具体需要回答三个子问题：(1) 把实验设置统一后，排除不公平因素，TTA方法之间和相对于baseline的真实差距有多大？(2) TTA能否与训练时微调方法（如CoOp、MaPLe）良好配合？(3) 准确率提升是否伴随可信度下降？

方法详解¶

整体框架¶

TTA-VLM是一个综合benchmark，不提出新方法，而是提供统一评估框架。覆盖两类TTA范式： - Episodic TTA：逐样本适应，利用单个测试样本的AugMix增强视图（64个）进行即时适应 - Online TTA：流式处理测试数据流（batch size=1），利用历史信息累积适应

关键设计¶

统一实验设置: 所有方法使用相同的预训练模型checkpoint、相同的文本模板（"a photo of a [CLASS]"）、相同的数据增强管线、相同的评估协议。只保留各方法原始推荐的超参数不变。在CLIP-ResNet50/ViT-B/16/ViT-B/32、SigLIP-ViT-B/16四个模型上评估。
多维评估指标:
准确率: 标准分类准确率
校准(ECE): 20-bin ECE，衡量预测置信度与实际正确率的对齐程度
OOD检测(AUC): 丢弃50%类别，对应样本作为OOD，衡量模型识别未知类别样本的能力
对抗鲁棒性: 用PGD攻击生成对抗样本，测试TTA方法的防御效果
流式稳定性: Online TTA在混入OOD/对抗样本的数据流中的表现
训练时微调+TTA协作评估: 将TTA应用于CoOp、MaPLe、TeCoA微调后的模型，测试两阶段方法是否互补。

涵盖的TTA方法¶

Episodic (8种): TPT, C-TPT, RLCF, MTA, ZERO, TTL, TPS, R-TPT
Online (7种): TDA, DMN/DMNW, OnZeta, BoostAdapter, DPE, ECALP, DynaPrompt

实验关键数据¶

公平比较下的准确率（CLIP-ResNet50）¶

方法	细粒度Avg	ImageNet-X Avg
CLIP baseline	55.84%	44.19%
TPT (2022, 开创性工作)	57.80%	47.21%
ECALP (最佳episodic之一)	59.38%	46.06%
BoostAdapter (最佳online之一)	58.60%	48.07%

关键发现: TPT（2022年的开创性工作）在公平比较下仍然是最强基线之一，后续方法的平均改进不超过1.5%。

SigLIP上的泛化¶

在SigLIP-ViT-B/16上，大多数TTA方法在细粒度任务上无法超越零样本baseline。仅在ImageNet相关数据集上有3-4%的改进。说明现有TTA方法的设计高度依赖CLIP的特定特性，缺乏泛化性。

与训练时微调的协作¶

基底模型	TTA后最佳Avg	baseline Avg	提升
CoOp	58.86% (BoostAdapter)	56.20%	+2.66%
MaPLe	67.79% (ECALP)	64.63%	+3.16%
TeCoA	41.19% (ECALP)	36.23%	+4.96%

看似有提升，但几乎所有episodic TTA方法在TeCoA上导致性能下降（负迁移）。DPE在TeCoA上甚至从36.23%暴降到18.18%。

可信度劣化¶

方法	细粒度ECE↓	ECE增量
CLIP baseline	5.70%	0
TPT	11.30%	+5.60%
ECALP	32.21%	+26.51%
TPS	21.16%	+15.46%
C-TPT (专门设计)	6.61%	+0.91%

所有TTA方法都增加校准误差，最严重的ECALP把ECE从5.70%提高到32.21%（6倍恶化）。唯一相对可控的是C-TPT（专门设计了校准正则项）。 OOD检测AUC从66.20%下降1-4%。大多数episodic TTA方法在CLIP-ViT上对抗鲁棒性接近0%。

消融实验要点¶

多模板策略对大多数TTA方法有额外提升（如ZERO在DTD上+3.1%），但部分online方法反而下降
TPT在不同backbone上表现不一致（ResNet50上最强但ViT-B/32上较弱），说明架构敏感性被低估
Online TTA在混入对抗样本的数据流中性能普遍下降1-2%

亮点¶

揭示了领域的"虚假进步": 统一实验后发现2022年的TPT仍然是最强基线之一，后续3年的方法改进微乎其微。这对整个TTA社区是一记警钟。
首次系统评估TTA的可信度代价: 以前只看准确率，本文第一次量化了校准/OOD检测/鲁棒性的劣化，发现TTA实际上让模型变得更不可靠。
跨架构泛化性测试: 首次将TTA方法从CLIP扩展到SigLIP评估，暴露了方法的架构依赖性。
Benchmark框架设计好: 统一了所有TTA方法的实现和评估管线，代码开源，对后续TTA研究有实际价值。
计算开销分析: 定量比较了15种方法的推理时间和GPU显存占用（如DynaPrompt需要1157s和43GB，是CLIP推理的16倍时间和30倍显存）。

局限性 / 可改进方向¶

仅覆盖分类任务: 未评估VLM在VQA、image captioning、分割等更广泛任务上的TTA效果。
排除了使用额外资源的TTA方法: 利用LLM、生成模型或ImageNet统计信息的方法（可能更强）被排除在外。
超参数问题回避了: 所有方法使用原始推荐超参数，但test-time超参数调优本身就是开放问题。
正面方向不足: 文章更多是揭示问题，对"如何做更好的TTA"缺乏建设性建议。
可以考虑在更大的VLM（如LLaVA、Qwen-VL等生成式VLM）上做类似分析。

与相关工作的对比¶

TPT (NeurIPS 2022): 本文的"参照系"，开创了VLM的test-time prompt tuning。令人惊讶的是，后续方法在公平比较下相对于TPT几乎没有提升。
MTA (CVPR 2024): 无训练的training-free方法，不需要梯度更新。在本benchmark中表现中等，但鲁棒性较好（24.24%对抗准确率 vs TPT的0.03%）。
ECALP (ICLR 2025): 准确率最高的online方法之一，但校准最差（ECE增加26.51%），体现了准确率-可信度trade-off。
C-TPT (ICLR 2024): 专门设计了校准正则项，是唯一在准确率提升同时保持较好校准的方法（ECE仅增加0.91%），值得学习。

启发与关联¶

对VLM领域的启示：不要盲目追加TTA模块，有些场景（如已微调模型、需要高校准的场景）TTA可能弊大于利。
校准-准确率trade-off是一个值得深入研究的方向——能否设计天然保持校准的TTA方法？C-TPT提供了初步思路。
Benchmark方法论可迁移：其他VLM任务（如VQA、grounding、video understanding）同样需要這种"冷静回顾型"的benchmark来纠偏。

评分¶

新颖性: ⭐⭐⭐ 不提出新方法，但系统性揭示问题本身有价值
实验充分度: ⭐⭐⭐⭐⭐ 15种方法×15个数据集×4个模型×multiple指标，实验量巨大十分详尽
写作质量: ⭐⭐⭐⭐ 结论清晰有力，但部分表格过多影响可读性
价值: ⭐⭐⭐⭐ 对TTA社区是必要的"清醒剂"，benchmark框架实用，但缺少建设性的改进方向