跳转至

ABRA: Teleporting Fine-Tuned Knowledge Across Domains for Open-Vocabulary Object Detection

会议: CVPR 2026
arXiv: 2603.12409
代码: 待公开
领域: 目标检测 / 域适应 / 开放词汇
关键词: 开放词汇检测, 域适应, 权重空间传输, SVFT, 正交Procrustes

一句话总结

将域适应建模为权重空间的SVD旋转对齐问题:分解域与类知识,通过闭式正交Procrustes解将源域类特定残差"传送"到无标注的目标域,实现零样本跨域类别检测。

背景与动机

开放词汇检测器(如Grounding DINO)在域偏移(夜间/雾天)下性能严重退化。传统DAOD方法依赖目标域伪标签,但在严重域偏移下伪标签不可靠。更关键的是,目标域可能完全缺乏某些类别的数据(既无标注也无图片),这是标准DAOD方法无法处理的。

核心问题

如何将源域中某类别的检测能力迁移到目标域,当目标域完全没有该类别的任何数据时?ABRA通过权重空间的几何操作让这种"传送"成为可能。

方法详解

核心思想:域知识和类知识可以解耦,域适应可以在权重空间通过几何变换完成。

整体框架

Grounding DINO → Objectification训练域专家 \(\theta_S, \theta_T\) → SVFT训练类专家 \(\Delta\Sigma_S^{(c)}\) → 闭式旋转传送 \(L^*=U_T^\top U_S, R^*=V_T^\top V_S\)

关键设计

  1. Objectification(对象化): 将top-3高频类替换为统一"object"标签训练类无关域专家,强制学习域视觉统计。
  2. SVFT类专家: 在冻结的域专家SVD基上训练极轻量奇异值残差 \(\Delta\Sigma_S^{(c)}\)
  3. 正交Procrustes传送: \(\theta_{T}^{(c)} \approx U_T(\Sigma_T + U_T^\top U_S \cdot \Delta\Sigma_S^{(c)} \cdot V_S^\top V_T) V_T^\top\),闭式解无需训练。

损失函数 / 训练策略

  • 域专家:10 epochs, lr=1e-4;类专家:SVFT 12 epochs, lr=1e-2;传送:无训练

实验关键数据

数据集 指标 ABRA Zero-shot Source Fine-tune上界
Cityscapes→Foggy (avg) mAP/AP50 40.54/61.06 27.66/44.12 38.25/57.34 41.36/62.48
SDGOD (avg) mAP/AP50 28.10/50.57 20.65/34.82 27.76/48.99 29.20/51.93

消融实验要点

  • Task Analogy和ParamΔ失败——简单加减不够,需要基对齐
  • 每类独立专家优于合并所有类的单一专家
  • ABRA初始化在few-shot场景始终优于标准初始化

亮点 / 我学到了什么

  • 权重空间SVD旋转对齐是优雅的域适应范式——绕开特征对齐/对抗训练
  • Objectification是巧妙的类-域解耦
  • SVFT残差极轻量,适合多类场景

局限性 / 可改进方向

  • 正交Procrustes假设源/目标域SVD子空间有良好对应——极端域偏移下需验证
  • → 可与 ideas/20260316_multi_source_ov_det.mdideas/20260316_multi_teacher_ov_det_distill.md 关联

与相关工作的对比

  • vs Task Arithmetic: 忽略旋转差异导致失败;vs ParamΔ: 恒等映射在SDGOD崩溃;vs Mean Teacher DAOD: 需要目标域图像

与我的研究方向的关联

  • 权重空间操作和SVFT可用于检测/分割模型的跨域部署和模型压缩

评分

  • 新颖性: ⭐⭐⭐⭐ 域适应建模为权重旋转是新颖视角,Objectification设计巧妙
  • 实验充分度: ⭐⭐⭐⭐ 多域偏移场景、完整消融、few-shot分析
  • 写作质量: ⭐⭐⭐⭐ 清晰的问题定义和方法推导
  • 对我的价值: ⭐⭐⭐⭐ 权重空间操作与检测/模型压缩方向高度相关