DOTA: Distributional Test-Time Adaptation of Vision-Language Models¶

会议: NeurIPS 2025
arXiv: 2409.19375
代码: 未提及
领域: 多模态VLM
关键词: test-time adaptation, CLIP, distribution estimation, Bayes theorem, cache-based, catastrophic forgetting

一句话总结¶

提出 DOTA（DistributiOnal Test-time Adaptation），不再简单缓存测试样本，而是持续估计测试数据流的底层分布，通过贝叶斯定理计算后验概率实现自适应，解决了缓存容量有限导致的灾难性遗忘问题，在多个分布偏移基准上达到 SOTA。

背景与动机¶

VLM（如 CLIP）在训练-测试分布差距大时性能不可靠。基于缓存的测试时适配方法（如 TDA、TPT）通过存储代表性测试样本来指导后续分类，但存在根本限制： - 朴素缓存管理：缓存容量有限，新样本加入时旧样本被丢弃 - 灾难性遗忘：丢弃的样本信息完全丢失，导致对已见类别的分类退化 - 记忆个体 vs 理解分布：存储具体样本无法泛化到未见的同分布样本

核心洞察：与其记住个别样本，不如持续估计数据分布——分布是对数据的更紧凑、更泛化的总结。

核心问题¶

如何在有限内存下进行测试时适配，使 VLM 能持续学习和适应部署环境的分布变化，同时避免灾难性遗忘？

方法详解¶

关键设计¶

分布估计替代样本缓存: 不存储具体的测试样本特征向量，而是为每个类别维护一个分布估计（如高斯分布的均值和协方差）。每当新的测试样本被（伪）标记后，更新对应类别的分布参数。
贝叶斯后验推断: 给定新测试样本 \(x\)，利用估计的类别分布计算后验 \(P(y|x) \propto P(x|y) \cdot P(y)\)：
\(P(x|y)\)：从估计的类别条件分布中计算
\(P(y)\)：类别先验，可从已见样本的频率估计这比简单的最近邻或缓存相似度匹配更有理论基础。
持续更新机制: 分布参数可以通过在线更新（如 running mean/covariance），不需要存储所有历史样本。内存开销恒定（每类一个分布参数），不随测试样本数量增长。

训练策略¶

无训练，完全基于测试时的在线估计。CLIP 模型冻结不修改。

实验关键数据¶

在多个分布偏移基准上显著优于现有缓存方法（TDA、TPT 等），特别是在长测试序列和大分布偏移场景下遗忘更少。

消融实验要点¶

分布估计 vs 缓存样本：分布估计在长序列中优势随时间增大（遗忘更少）
不同分布假设：高斯分布在实践中足够好
贝叶斯推断 vs 直接距离：贝叶斯方法在类不平衡场景下更鲁棒

亮点¶

"估计分布而非缓存样本"的核心思想简洁且有理论依据
内存开销恒定——不随测试样本数增长
贝叶斯框架提供了概率化的分类决策
天然解决灾难性遗忘——分布参数是累积的而非替换的

局限性 / 可改进方向¶

高斯分布假设对复杂分布可能不足
伪标签错误会累积到分布估计中
类别数量很大时每类维护分布参数的成本增加
未考虑分布随时间漂移（concept drift）的场景

与相关工作的对比¶

vs TDA (缓存 adapter): TDA 存储固定数量的特征向量；DOTA 维护分布参数，不受容量限制
vs TPT (test-time prompt tuning): TPT 通过优化 prompt 适配，计算成本高；DOTA 仅做分布估计，更高效
vs Tip-Adapter: Tip-Adapter 用 few-shot 训练集构建缓存；DOTA 完全在测试时从零开始估计

启发与关联¶

分布估计的思路可用于终身学习的 VLM——持续从部署数据中学习而不遗忘
贝叶斯后验推断可与 confidence calibration 结合——在不确定时询问用户
与 CLIC（同系列笔记）的关联：CLIC 改善训练时的组合推理，DOTA 改善测试时的域适应——两个维度提升 CLIP

评分¶

新颖性: ⭐⭐⭐⭐ 分布估计替代缓存的思路简洁有力
实验充分度: ⭐⭐⭐⭐ 多个分布偏移基准，长序列测试
写作质量: ⭐⭐⭐⭐ 概念清晰，贝叶斯公式化严谨
价值: ⭐⭐⭐⭐ 对 VLM 部署中的域适应实际需求有直接价值