Test-Time Adaptive Object Detection with Foundation Model¶

会议: NeurIPS 2025
arXiv: 2510.25175
代码: https://github.com/gaoyingjay/ttaod_foundation
领域: 目标检测 / 域适应
关键词: 测试时适应, 开放词汇检测, Mean-Teacher, Prompt Tuning, 动态记忆

一句话总结¶

提出无需源域数据的开放词汇测试时自适应目标检测框架（TTAOD），通过多模态 Prompt Tuning + Mean-Teacher + 实例动态记忆（IDM）+ 记忆增强/幻觉策略，在 Pascal-C 上 AP50 达 56.2%（+11.0 vs SOTA），在 13 个跨域数据集上一致有效。

研究背景与动机¶

领域现状：测试时适应（TTA）在分类任务上已有成熟方法，但目标检测的 TTA 研究较少。现有如 STFAR 需要源域统计量（均值/方差），且假设闭集类别空间。
现有痛点：(a) 需要源域数据或统计量不切实际；(b) 闭集假设限制了开放场景应用；(c) 腐蚀/跨域场景下伪标签质量差，Mean-Teacher 易退化。
核心矛盾：开放词汇检测器（如 GroundingDINO）在域偏移下性能下降，但 TTA 不能依赖源数据也不能限制类别空间。
本文要解决什么？ 在无源数据、开放词汇设置下，仅通过调节 prompt 实现测试时域适应。
切入角度：视觉-语言基础模型（GroundingDINO）已有强大的零样本能力，只需少量 prompt 参数调整即可适应目标域。用记忆模块积累高质量实例来引导适应。
核心 idea 一句话：冻结 GroundingDINO + 可学习文本/视觉 prompt → Mean-Teacher EMA 更新 → 实例动态记忆积累高质量伪标签 → 记忆增强精化检测 + 记忆幻觉处理负样本。

方法详解¶

整体框架¶

输入测试图像 → GroundingDINO（冻结）+ 可学习 Prompt → Teacher（EMA）生成伪标签 → Student 学习 → IDM 存储高质量检测实例（DINOv2 特征）→ 记忆增强用类别原型精化检测分数 → 记忆幻觉为负样本合成训练信号

关键设计¶

多模态 Prompt Tuning + Warm-start:
做什么：在文本和视觉编码器中插入可学习 prompt
核心思路：文本 prompt \(\tilde{E}_T = E_T + P_T\)；视觉 prompt 在每层插入可学习 token \(P_{I,i}\)。关键创新——Test-Time Warm-Start (TTWS)：用第一个测试样本的平均 token 特征初始化视觉 prompt \(P_{I,i} = \text{AvgPool}(E_{I,i})\)
设计动机：消融显示 TTWS 极关键（+8.5% AP50），因为随机初始化的视觉 prompt 在早期产生极差伪标签导致 Mean-Teacher 崩溃
实例动态记忆（IDM）:
做什么：维护每类最多 20 个高质量检测实例的队列
核心思路：每次检测后将高置信度实例的 DINOv2 特征和置信度分数入队。计算类别原型 \(v_c\) = 平均特征。新实例替换低质量旧实例
设计动机：动态积累目标域的视觉知识，为后续的记忆增强和幻觉策略提供基础
记忆增强 + 记忆幻觉:
做什么：增强——用原型精化检测分数；幻觉——为无检测图像合成训练信号
核心思路：增强——对每个检测框提取 DINOv2 特征与原型计算余弦相似度 \(s' = \alpha \exp(-\beta(1 - \text{sim}))\) → 融合原始分数。幻觉——对无伪标签的图像，从 IDM 随机采样实例叠加到图像上（Beta mix \(\lambda \sim \text{Beta}(1,1)\), IoU<0.2 防重叠），最多 3 个实例
设计动机：增强解决单帧检测的不确定性；幻觉解决 Mean-Teacher 因负样本过多而退化的问题——没有正样本 teacher 无法提供有效监督

损失函数 / 训练策略¶

\(L_{total} = L_{cls} + L_{loc}\)（对比分类损失 + 定位损失）
Mean-Teacher EMA \(\gamma = 0.999\)
仅更新 prompt 参数（~0.1% 总参数）

实验关键数据¶

主实验¶

数据集	方法	AP50
Pascal-C	Direct Test	44.8%
Pascal-C	STFAR	45.2%
Pascal-C	Mean-Teacher	51.5%
Pascal-C	TTAOD (Ours)	56.2%
COCO-C	TTAOD	26.0 mAP
ODinW-13	TTAOD	54.2 mAP

消融实验¶

组件	AP50	说明
Baseline	44.8%	无适应
+ TPT only	45.4%	文本 prompt 微调
+ VPT only	41.4%	视觉 prompt（无 TTWS）反而降
+ TTWS	53.4%	Warm-start 关键
+ 全部组件	56.2%	最优

关键发现¶

TTWS 是最关键组件（+8.5%），说明 prompt 初始化对 TTA 的重要性
不带 TTWS 的视觉 prompt 反而有害（−3.4%），强调了冷启动问题
在 15 种腐蚀类型中 14 种上最优
ODinW-13 跨域：11/13 数据集上有改善，平均 +1.4%

亮点与洞察¶

TTWS 解决了 TTA 的冷启动问题：用第一个样本的特征初始化 prompt，简单但效果显著。可迁移到其他 TTA 场景
记忆幻觉是处理负样本的创新方案：检测任务中大量图像可能无目标，Mean-Teacher 会在这些帧上退化。合成正样本是优雅的解决方案
无源数据 + 开放词汇是更实际的设置：摆脱了对源域数据和闭集类别的依赖

局限性 / 可改进方向¶

记忆质量依赖伪标签选择，连续偏移场景可能积累错误
GroundingDINO 推理本身较重，加上 DINOv2 特征提取增加开销
未讨论在流式/实时场景下的适用性
记忆幻觉的合成方式较简单（直接叠加），更高级的增强可能更好

评分¶

新颖性: ⭐⭐⭐⭐ TTWS + 记忆幻觉的设计有新意
实验充分度: ⭐⭐⭐⭐⭐ 3 个基准 + 15 种腐蚀 + 13 个跨域 + 充分消融
写作质量: ⭐⭐⭐⭐ 方法流程清晰
价值: ⭐⭐⭐⭐ 推进了测试时适应在检测任务上的实用化