Beyond Boundaries: Leveraging Vision Foundation Models for Source-Free Object Detection¶

会议: AAAI 2026
arXiv: 2511.07301
代码: https://github.com/HuizaiVictorYao/VFM_SFOD
领域: 目标检测
关键词: 无源域自适应目标检测, 视觉基础模型, DINOv2, Grounding DINO, 伪标签融合

一句话总结¶

提出利用VFM（DINOv2+Grounding DINO）增强无源域自适应目标检测（SFOD）的框架，通过全局特征对齐(PGFA)、实例级原型对比学习(PIFA)和双源伪标签融合(DEPF)三个模块，在6个跨域检测基准上取得SOTA，例如Cityscapes→Foggy Cityscapes达47.1% mAP（比DRU高3.5%），Sim10k→Cityscapes达67.4% AP（比DRU高8.7%）。

背景与动机¶

无源域自适应目标检测（SFOD）需要在没有源域数据的情况下，将预训练检测器适配到目标域。现有方法仅利用源模型的内部知识（通过teacher-student蒸馏），导致两个问题：(1) 特征迁移能力受限于源模型的语义空间，(2) 伪标签存在偏差，尤其在大域偏移时。VFM（如DINOv2、Grounding DINO）在大规模数据上预训练，拥有强大的泛化能力和丰富的语义先验，但在SFOD中的潜力尚未被充分挖掘。

核心问题¶

如何有效利用VFM的外部知识来同时增强SFOD中的特征迁移能力（transferability）和类别区分能力（discriminability）？既有方法要么需要源数据（违反SFOD约束），要么只关注单一维度，未能充分发挥VFM的潜力。

方法详解¶

整体框架¶

基于Mean Teacher自训练框架（EMA更新teacher），在三个维度引入VFM外部知识：PGFA利用DINOv2进行全局patch级特征对齐；PIFA利用DINOv2构建类原型进行实例级对比学习；DEPF融合Grounding DINO和teacher的预测来生成更可靠的伪标签。推理时不引入额外参数/计算。

关键设计¶

Patch-weighted Global Feature Alignment (PGFA): 将student backbone的patch特征与DINOv2对齐，但不是均等对待所有patch——通过计算DINOv2 patch间余弦相似度矩阵，用top-k加权策略给语义一致性强的patch分配更高权重。用加权余弦损失对齐student→DINOv2特征空间。关键insight是不同patch的领域不变性差异很大，语义一致的区域更值得对齐。
Prototype-based Instance Feature Alignment (PIFA): 从DINOv2特征上用RoIAlign提取实例特征，按类别计算均值特征，用EMA(\(\mu\)=0.9)维护类原型。然后让student的实例特征通过InfoNCE对比损失与对应类原型对齐。momentum更新保证原型稳定性，对比学习同时提升类间区分度和域不变性。
Dual-source Enhanced Pseudo-label Fusion (DEPF): 创新性地融合teacher和Grounding DINO的检测框。不用传统WBF（会因不同源标签冲突而出错），而是丢弃类别标签只用IoU聚类框，在每个cluster内计算各预测的Shannon熵，用反熵权重加权融合框坐标和类别概率。低熵（高确信度）的预测获得更大权重，自然解决了两个源标签冲突的问题。

损失函数 / 训练策略¶

\(\mathcal{L}_{tot} = \mathcal{L}_{det} + \lambda(\mathcal{L}_{pgfa} + \mathcal{L}_{pifa})\)，\(\lambda=1\)。用Deformable DETR作为基础检测器，lr=\(5 \times 10^{-5}\)，batch=8，训练30 epochs。EMA系数0.999，每5 iterations更新teacher。推理时VFM完全不参与，无额外开销。

实验关键数据¶

基准(SFOD)	指标	本文	DRU(prev SOTA)	Source Only
City→Foggy(跨天气)	mAP	47.1	43.6	29.6
City→BDD100K(跨场景)	mAP	43.0	36.6	28.3
Sim10k→City(虚拟→真实)	AP(car)	67.4	58.7	50.8
KITTI→City(跨场景)	AP(car)	54.7	45.1	33.9
City→ACDC Snow	mAP	47.9	37.9	-
City→ACDC Fog	mAP	54.0	45.4	-

跨检测器验证：Faster R-CNN +3.4%, RT-DETR +3.3%, YOLOv5 +2.4% mAP。跨backbone验证（Swin-T/S/B/L, ViT-B）均一致提升。

消融实验要点¶

三个模块逐步叠加：MT baseline 42.3 → +PGFA 43.4(+1.1) → +PIFA 43.9(+1.6) → +PGFA+PIFA 45.0(+2.7) → +DEPF 45.9(+3.6) → 全部 47.1(+4.8)
DEPF贡献最大（+3.6），因为伪标签质量直接决定自训练上界
patch权重(PGFA)和熵权重(DEPF)各贡献+0.6和+0.3 mAP
VFM backbone选择：DINOv2 ViT-G(47.1) > ViT-L(46.8) > ViT-B(46.7) > Grounding DINO Swin-B(46.2)
推理时无额外开销，训练时增加79%时间（主要来自VFM特征提取）

亮点¶

将VFM引入SFOD的思路很自然且有效——VFM的泛化能力恰好弥补了源模型的域偏差
DEPF的熵引导融合设计巧妙——丢弃类别标签只聚类框，用反熵权重融合，优雅解决了多源标签冲突问题
推理时完全不增加开销（VFM只在训练时使用），实际部署友好
跨5种检测器架构和6种backbone都一致有效，方法通用性极强
即使源模型很弱（训练5个epoch），也能通过VFM获得显著提升

局限性 / 可改进方向¶

训练时需要额外的VFM推理（+79%训练时间），且需要DINOv2+Grounding DINO两个大模型
Grounding DINO需要文本提示，假设目标域的类别名称已知
在极端域偏移下（如ACDC夜景）提升幅度有限，夜景mAP仅23.0
未探索更强的VLM（如Qwen-VL、InternVL）替代Grounding DINO的可能

与相关工作的对比¶

vs DRU: DRU同样使用DETR但只依赖内部知识，本文引入VFM外部知识全面超越（+3.5~+9.6 mAP跨不同基准）
vs DINO Teacher(DT): DT需要源数据训练DINOv2 labeler（违反source-free约束），本文无需源数据却性能接近（差4.8%但设定更严格）
vs CODA: CODA只利用外部检测增强discriminability忽略transferability，本文同时优化两者

启发与关联¶

VFM作为"外部知识锚点"的思路可以推广到其他领域适应场景——如分割、深度估计的无源域适应
熵引导融合策略可以用于任何需要融合多个检测器输出的场景（如ensemble）
与模型压缩的交叉点：VFM知识蒸馏到轻量检测器，同时做域适应+模型小型化

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统性地将VFM引入SFOD，但各技术组件（feature alignment, prototype contrastive, box fusion）本身不算新
实验充分度: ⭐⭐⭐⭐⭐ 6个基准+5种检测器+6种backbone+极其详尽的消融和分析
写作质量: ⭐⭐⭐⭐ 结构清晰，实验图表丰富，motivation说服力强
价值: ⭐⭐⭐⭐ 实用价值高，方法通用性强，但SFOD应用范围较窄