Synthesizing Near-Boundary OOD Samples for Out-of-Distribution Detection¶

会议: ICCV 2025
arXiv: 2507.10225
代码: https://github.com/Jarvisgivemeasuit/SynOOD
领域: OOD 检测 / 扩散模型
关键词: 分布外检测, 近边界样本合成, CLIP微调, 扩散模型生成, 负标签

一句话总结¶

本文提出 SynOOD，利用 MLLM 提取上下文语义 + 扩散模型迭代 inpainting + OOD 梯度引导，合成靠近 InD/OOD 边界的挑战性 OOD 样本，用于微调 CLIP 图像编码器和负标签特征，在 ImageNet 基准上 AUROC 提升 2.80%、FPR95 降低 11.13%。

研究背景与动机¶

OOD 检测的挑战：部署在开放世界中的深度网络不可避免地遇到 OOD 样本，准确识别至关重要。CLIP-based 方法（如 NegLabel）通过引入负标签显著提升了 OOD 检测，但仍难以处理靠近 InD/OOD 边界的困难样本。

CLIP 的局限：图像在特征空间中通常比标签更密集，导致边界附近的 OOD 样本更倾向于与 InD 标签对齐，CLIP 无法建立清晰的语义分界。

已有方法： - 单模态方法（MSP、Energy、KNN）仅使用视觉信息 - 多模态方法（MCM、CLIPN、NegLabel）利用文本+视觉但缺乏挑战性训练数据 - NPOS、DreamOOD 生成 OOD 数据但质量/多样性有限

核心思路：用基础模型（MLLM + 扩散模型）生成高质量、靠近边界的 OOD 样本来微调 CLIP。

方法详解¶

整体框架 (三步)¶

Step 1：近边界 OOD 图像生成¶

上下文语义提取：用 MLLM \(\phi\) 分析 InD 图像，提取除主体外的所有上下文元素（如"熊猫"图像中的"竹子"、"游客"、"栏杆"）：

\[p^{con} = \phi(x^{in}, p^{in})\]

迭代扩散生成：将 InD 图像和上下文 prompt 输入 inpainting 扩散模型，逐步将主体替换为背景元素：

\[z_T = \sqrt{\bar{\alpha}_T}z^{in} + \sqrt{1-\bar{\alpha}_T}\epsilon, \quad \epsilon \sim \mathcal{N}(0, I)\]

OOD 梯度引导：使用 Energy Score 作为损失函数：

\[\mathcal{L}^O = m_{out} - \tau \cdot \log\sum_{i=1}^{C} e^{g_i(x^{syn})/\tau}\]

通过 Skip Gradient 近似计算梯度并更新初始噪声 \(\epsilon\)：

\[\epsilon := \epsilon - r \cdot \ddot{\nabla}_\epsilon\mathcal{L}^O\]

迭代数轮后，生成的图像视觉上类似 InD 但 OOD 评分接近边界阈值。

Step 2：微调 CLIP 图像编码器¶

冻结 CLIP 图像编码器 \(F\)，仅训练投影层 \(\delta\)
将合成 OOD 图像与对应负标签配对，与 InD 数据混合训练
使用 CLIP Loss：

\[\mathcal{L}^P = -\frac{1}{2m}\sum_{i=1}^{2m}\log\frac{\exp(sim(\hat{I}_i, T_i)/\tau)}{\sum_{j=1}^{M'}\exp(sim(\hat{I}_i, T_j)/\tau)}\]

InD 图像选取策略：按 JPEG 复杂度排序，选每类最高复杂度图像

Step 3：微调负标签特征¶

将与合成 OOD 图像相关的负标签特征（CLIP 文本编码器输出）设为可学习
减小 InD 与负标签之间的语义鸿沟，改善图文对齐
分别微调图像/文本编码器以保持训练稳定性

实验¶

ImageNet 基准 OOD 检测¶

方法	iNat AUROC↑	SUN AUROC↑	Place AUROC↑	Texture AUROC↑	Avg AUROC↑	Avg FPR95↓
MSP	87.44	79.73	79.67	79.69	81.63	69.61
Energy	95.33	92.66	91.41	86.76	91.54	39.89
ReAct	96.22	94.20	91.58	89.80	92.95	31.43
NegLabel (CLIP)	-	-	-	-	~95	~20
SynOOD	最优	最优	最优	最优	SOTA	SOTA

消融实验¶

组件	AUROC↑	FPR95↓
仅负标签 (NegLabel baseline)	基线	基线
+ 图像编码器微调	+1.5%	-6.2%
+ 负标签特征微调	+0.8%	-3.5%
+ 两者联合 (SynOOD)	+2.80%	-11.13%

关键发现¶

SynOOD 相比 NegLabel 提升 AUROC 2.80%、降低 FPR95 11.13%
近边界样本生成的关键在于 OOD 梯度引导——无此步骤生成的样本远离边界，微调效果有限
分别微调图像编码器和文本编码器特征比联合微调更稳定
参数增量和运行时开销极小（仅增加一个投影层）
MLLM 提取的上下文元素确保生成图像保持 InD 风格但语义不同

亮点与洞察¶

梯度引导合成：首次将 OOD 得分梯度反传到扩散噪声空间，精准控制合成样本的 InD/OOD 距离
MLLM 驱动上下文：利用 MLLM 理解图像语义，自动提取合适的替换元素
最小化架构改动：仅添加投影层，CLIP 主体冻结

局限性¶

生成过程需要 MLLM + 扩散模型 + OOD 检测器三个模型，离线生成成本较高
Skip Gradient 是梯度近似，可能无法完美优化噪声
上下文元素质量依赖 MLLM 的理解能力

评分¶

新颖性：⭐⭐⭐⭐⭐ — 梯度引导扩散生成近边界 OOD 思路原创
技术深度：⭐⭐⭐⭐ — 三步流程逻辑清晰
实验充分度：⭐⭐⭐⭐ — ImageNet 大规模基准 SOTA
实用价值：⭐⭐⭐⭐ — 低额外参数/开销，即插即用