Can OOD Object Detectors Learn from Foundation Models?¶
会议: ECCV 2024
arXiv: 2409.05162
代码: GitHub
领域: 目标检测
关键词: OOD目标检测, 合成数据, 基础模型, Stable Diffusion, 场景级编辑
一句话总结¶
SyncOOD 提出一种自动化数据策展方法,利用 LLM 想象语义新颖的 OOD 概念,通过 Stable Diffusion Inpainting 在 ID 图像上进行区域级编辑合成场景级 OOD 样本,再经 SAM 精炼框和特征相似度过滤后训练轻量 MLP 分类器,在多个 OOD 检测基准上以极少量合成数据大幅超越 SOTA。
研究背景与动机¶
- 领域现状:现代目标检测器在闭集数据上取得了很好的性能,但在开放世界应用中常将 OOD 类别错误分类为 ID 类别,威胁部署可靠性。OOD 目标检测旨在识别并标记未知目标。
- 现有方法局限:
- 大多数方法在检测器的隐空间中合成 OOD 数据(如 VOS、SR-VAE、DFDD),受限于隐空间质量且缺乏可解释性
- 对抗样本方法(SAFE)缺乏语义多样性
- 视频伪监督方法引入额外数据需求
- 所有方法局限于闭集分布,可能偏向 ID 数据集
- 核心洞察:能否利用在海量开放数据上训练的基础模型(LLM + Stable Diffusion + SAM)合成高质量的 OOD 样本?两个关键观察:(1) 与 ID 数据接近的"困难" OOD 样本更有助于学习精确决策边界;(2) 上下文是 OOD 检测中的干扰因素。
方法详解¶
整体框架¶
SyncOOD 包含两个核心阶段:(1) OOD 数据合成——利用基础模型自动生成带标注的场景级 OOD 图像;(2) OOD 检测器训练——通过困难样本挖掘和轻量分类器优化 ID/OOD 决策边界。整个流程完全自动化,几乎不需要人工标注。关键是将 OOD 合成解耦为"概念发现→区域编辑→标注精炼→样本筛选"四步。
关键设计¶
1. LLM 驱动的新颖概念想象(Step 1)
- 基于 ID 类别标签,利用 GPT-4 通过 in-context learning 为每个 ID 类别联想 M 个语义新颖且视觉相似、上下文兼容的 OOD 概念
- LLM 保证语义可分性:想象的新概念与 ID 类别语义分离
- 实验发现一个 in-context 示例就足够发现高质量新概念
- 删除与测试集 OOD 类别重叠的概念避免信息泄漏
2. 区域级图像编辑(Step 2)
- 使用 Stable-Diffusion-Inpainting 进行 box-conditioned 编辑:\(\mathbf{x}^{\text{edit}} = \text{SDI}(\mathbf{x}^{\text{id}}, \mathbf{b}^{\text{id}}, \mathbf{y}^{\text{novel}})\)
- 以 ID 物体的标注框作为编辑 mask,新概念作为文本条件
- 关键优势:保持原始场景上下文不变,只替换目标区域内的物体,消除上下文偏差干扰
3. SAM 标注框精炼(Step 3)
- 由于扩散模型的随机性,编辑后物体的位置/尺寸可能偏移
- 用 SAM 在编辑区域的 padding 范围内获取最高置信度的实例 mask
- 将 mask 转为 box 后计算与原始框的 IoU,过滤尺度变化过大的样本(\(\text{IoU} > \gamma\))
4. 基于特征相似度的困难样本挖掘(Step 4)
- 用预训练检测器提取 ID/OOD 物体对的隐空间特征
- 基于余弦相似度筛选视觉相似但语义不同的 OOD 样本:\(\epsilon_{\text{low}} < \text{sim}(\mathbf{z}^{\text{edit}}, \mathbf{z}^{\text{id}}) < \epsilon_{\text{up}}\)
- 过高相似度表示编辑失败,过低表示图像失真
- 筛选出"恰好足够混淆"的困难 OOD 样本
损失函数 / 训练策略¶
- 训练一个轻量 3 层 MLP 作为即插即用的 OOD 检测器
- 使用标准二分类损失优化 ID/OOD 决策边界
- 检测器本身参数不变,仅训练额外 MLP,ID 性能(mAP)不受影响
- 跟随 SAFE 提取多级特征作为训练样本
- 学习率 PASCAL-VOC=1e-4,BDD-100K=5e-5,momentum=0.9,dropout=0.5,batch=32
实验关键数据¶
主实验¶
| 方法 | VOC→COCO FPR95↓ | VOC→OI FPR95↓ | BDD→COCO FPR95↓ | BDD→OI FPR95↓ |
|---|---|---|---|---|
| MSP | 70.99 | 73.13 | 80.94 | 79.04 |
| VOS | 47.53 | 51.33 | 44.27 | 35.54 |
| SAFE | 47.40 | 20.06 | 32.56 | 16.04 |
| DFDD | 41.34 | 44.52 | 30.71 | 22.67 |
| Ours+FRCNN | 36.44 | 13.34 | 22.67 | 12.96 |
| Ours+VOS | 34.97 | 11.25 | 23.09 | 14.12 |
在所有基准上大幅超越 SOTA,且仅使用 SAFE 约 25%(VOC)和 20%(BDD)的辅助数据。
消融实验¶
| 消融项 | FPR95(COCO/OI)↓ | 分析 |
|---|---|---|
| 合成数据量 2k→14k | 37.82~36.70 / 13.87~12.96 | 性能极稳定,数据效率高 |
| 概念数量 3→8 | 36.96~37.91 / 13.15~13.58 | 对概念数量不敏感 |
| 去掉 SAM 精炼 | 39.55 / 13.72 | SAM 提供更精确框 |
| 去掉相似度过滤 | 39.29 / 13.68 | 过滤器有效去除噪声样本 |
| 用 object-centric 图像 | 51.99 / 20.70 | 场景级编辑远优于纯物体图像 |
| 场景级无框 | 48.01 / 18.61 | 精确的 OOD 框标注至关重要 |
关键发现¶
- 数据效率极高:仅 2k 合成样本就能接近最佳性能,显著优于使用 16k+ 样本的 SAFE
- 场景级编辑是关键:纯物体图像和全图 OOD 均远不如区域编辑
- 上下文一致性关键:即使轻微背景修改也会导致检测器特征显著变化
- 相似度区间有甜点:>0.9 表示编辑失败,过低表示图像失真
亮点与洞察¶
- 首次实现照片级真实感的场景级 OOD 合成:将 OOD 合成从隐空间推向像素空间
- 将 LLM、SD、SAM 有机串联:概念想象→图像编辑→标注精炼,各取所长
- 显式解耦合成与选择:语义可分性由 LLM 保证,视觉相似性由特征过滤保证
- 即插即用设计:不改变原始检测器,在任意检测器上叠加 OOD 能力
局限性 / 可改进方向¶
- 合成质量受 Stable Diffusion 和 SAM 能力制约,某些概念可能编辑失败
- LLM 想象的概念需排除与测试 OOD 重叠的类别,存在先验知识泄漏风险
- 仅验证了 Faster R-CNN 和 VOS 两种检测器,未探索更现代的检测架构
- 未讨论计算开销(GPT-4 调用、SD 生成时间)
- 可扩展到 3D、视频等更多模态的 OOD 检测
相关工作与启发¶
- VOS:在隐空间采样 OOD 样本的经典方法,SyncOOD 的直接比较对象
- SAFE:类似框架但使用对抗噪声,数据效率远低于 SyncOOD
- Dream-OOD:用扩散模型合成 OOD 数据做图像分类,在检测任务上不适用
- 启发:基础模型的开放世界知识可以通过自动化流水线高效注入到下游检测任务中
评分¶
| 维度 | 分数 |
|---|---|
| 新颖性 | ⭐⭐⭐⭐ |
| 技术深度 | ⭐⭐⭐⭐ |
| 实验充分度 | ⭐⭐⭐⭐⭐ |
| 工程实用性 | ⭐⭐⭐⭐ |
| 写作质量 | ⭐⭐⭐⭐ |