Test-Time Adaptive Object Detection with Foundation Model¶
会议: NeurIPS 2025
arXiv: 2510.25175
代码: https://github.com/gaoyingjay/ttaod_foundation
领域: 目标检测 / 域适应
关键词: 测试时适应, 开放词汇检测, Mean-Teacher, Prompt Tuning, 动态记忆
一句话总结¶
提出无需源域数据的开放词汇测试时自适应目标检测框架(TTAOD),通过多模态 Prompt Tuning + Mean-Teacher + 实例动态记忆(IDM)+ 记忆增强/幻觉策略,在 Pascal-C 上 AP50 达 56.2%(+11.0 vs SOTA),在 13 个跨域数据集上一致有效。
研究背景与动机¶
- 领域现状:测试时适应(TTA)在分类任务上已有成熟方法,但目标检测的 TTA 研究较少。现有如 STFAR 需要源域统计量(均值/方差),且假设闭集类别空间。
- 现有痛点:(a) 需要源域数据或统计量不切实际;(b) 闭集假设限制了开放场景应用;(c) 腐蚀/跨域场景下伪标签质量差,Mean-Teacher 易退化。
- 核心矛盾:开放词汇检测器(如 GroundingDINO)在域偏移下性能下降,但 TTA 不能依赖源数据也不能限制类别空间。
- 本文要解决什么? 在无源数据、开放词汇设置下,仅通过调节 prompt 实现测试时域适应。
- 切入角度:视觉-语言基础模型(GroundingDINO)已有强大的零样本能力,只需少量 prompt 参数调整即可适应目标域。用记忆模块积累高质量实例来引导适应。
- 核心 idea 一句话:冻结 GroundingDINO + 可学习文本/视觉 prompt → Mean-Teacher EMA 更新 → 实例动态记忆积累高质量伪标签 → 记忆增强精化检测 + 记忆幻觉处理负样本。
方法详解¶
整体框架¶
输入测试图像 → GroundingDINO(冻结)+ 可学习 Prompt → Teacher(EMA)生成伪标签 → Student 学习 → IDM 存储高质量检测实例(DINOv2 特征)→ 记忆增强用类别原型精化检测分数 → 记忆幻觉为负样本合成训练信号
关键设计¶
- 多模态 Prompt Tuning + Warm-start:
- 做什么:在文本和视觉编码器中插入可学习 prompt
- 核心思路:文本 prompt \(\tilde{E}_T = E_T + P_T\);视觉 prompt 在每层插入可学习 token \(P_{I,i}\)。关键创新——Test-Time Warm-Start (TTWS):用第一个测试样本的平均 token 特征初始化视觉 prompt \(P_{I,i} = \text{AvgPool}(E_{I,i})\)
-
设计动机:消融显示 TTWS 极关键(+8.5% AP50),因为随机初始化的视觉 prompt 在早期产生极差伪标签导致 Mean-Teacher 崩溃
-
实例动态记忆(IDM):
- 做什么:维护每类最多 20 个高质量检测实例的队列
- 核心思路:每次检测后将高置信度实例的 DINOv2 特征和置信度分数入队。计算类别原型 \(v_c\) = 平均特征。新实例替换低质量旧实例
-
设计动机:动态积累目标域的视觉知识,为后续的记忆增强和幻觉策略提供基础
-
记忆增强 + 记忆幻觉:
- 做什么:增强——用原型精化检测分数;幻觉——为无检测图像合成训练信号
- 核心思路:增强——对每个检测框提取 DINOv2 特征与原型计算余弦相似度 \(s' = \alpha \exp(-\beta(1 - \text{sim}))\) → 融合原始分数。幻觉——对无伪标签的图像,从 IDM 随机采样实例叠加到图像上(Beta mix \(\lambda \sim \text{Beta}(1,1)\), IoU<0.2 防重叠),最多 3 个实例
- 设计动机:增强解决单帧检测的不确定性;幻觉解决 Mean-Teacher 因负样本过多而退化的问题——没有正样本 teacher 无法提供有效监督
损失函数 / 训练策略¶
- \(L_{total} = L_{cls} + L_{loc}\)(对比分类损失 + 定位损失)
- Mean-Teacher EMA \(\gamma = 0.999\)
- 仅更新 prompt 参数(~0.1% 总参数)
实验关键数据¶
主实验¶
| 数据集 | 方法 | AP50 |
|---|---|---|
| Pascal-C | Direct Test | 44.8% |
| Pascal-C | STFAR | 45.2% |
| Pascal-C | Mean-Teacher | 51.5% |
| Pascal-C | TTAOD (Ours) | 56.2% |
| COCO-C | TTAOD | 26.0 mAP |
| ODinW-13 | TTAOD | 54.2 mAP |
消融实验¶
| 组件 | AP50 | 说明 |
|---|---|---|
| Baseline | 44.8% | 无适应 |
| + TPT only | 45.4% | 文本 prompt 微调 |
| + VPT only | 41.4% | 视觉 prompt(无 TTWS)反而降 |
| + TTWS | 53.4% | Warm-start 关键 |
| + 全部组件 | 56.2% | 最优 |
关键发现¶
- TTWS 是最关键组件(+8.5%),说明 prompt 初始化对 TTA 的重要性
- 不带 TTWS 的视觉 prompt 反而有害(−3.4%),强调了冷启动问题
- 在 15 种腐蚀类型中 14 种上最优
- ODinW-13 跨域:11/13 数据集上有改善,平均 +1.4%
亮点与洞察¶
- TTWS 解决了 TTA 的冷启动问题:用第一个样本的特征初始化 prompt,简单但效果显著。可迁移到其他 TTA 场景
- 记忆幻觉是处理负样本的创新方案:检测任务中大量图像可能无目标,Mean-Teacher 会在这些帧上退化。合成正样本是优雅的解决方案
- 无源数据 + 开放词汇是更实际的设置:摆脱了对源域数据和闭集类别的依赖
局限性 / 可改进方向¶
- 记忆质量依赖伪标签选择,连续偏移场景可能积累错误
- GroundingDINO 推理本身较重,加上 DINOv2 特征提取增加开销
- 未讨论在流式/实时场景下的适用性
- 记忆幻觉的合成方式较简单(直接叠加),更高级的增强可能更好
相关工作与启发¶
- vs STFAR: 需要源域统计量+闭集,本文无源+开放词汇
- vs Tent/MEMO: 通用 TTA 方法但适用于分类,不处理检测特有的伪标签问题
- vs TPT: TPT 做视觉 prompt 调优但用于分类,本文扩展到检测+加入 TTWS
评分¶
- 新颖性: ⭐⭐⭐⭐ TTWS + 记忆幻觉的设计有新意
- 实验充分度: ⭐⭐⭐⭐⭐ 3 个基准 + 15 种腐蚀 + 13 个跨域 + 充分消融
- 写作质量: ⭐⭐⭐⭐ 方法流程清晰
- 价值: ⭐⭐⭐⭐ 推进了测试时适应在检测任务上的实用化