InvAD: Inversion-based Reconstruction-Free Anomaly Detection with Diffusion Models¶
会议: CVPR 2026 arXiv: 2504.05662 代码: 项目页面 领域: 医学图像 关键词: 异常检测, 扩散模型, DDIM反演, 无重建范式, 工业/医疗缺陷检测
一句话总结¶
提出 InvAD,将扩散模型异常检测从"RGB 空间去噪重建"范式转变为"潜空间加噪反演"范式,通过 DDIM 反演直接推断最终潜变量并在先验分布下度量偏差来检测异常,仅需 3 步反演即达 SOTA 性能且推理速度提升约 2 倍。
研究背景与动机¶
基于扩散模型的异常检测(AD)方法虽然成功,但存在根本性的效率-精度矛盾:(1) 噪声强度敏感——过强的噪声破坏正常区域增加假阳性,过弱则异常区域被完美重建导致漏检;(2) 多步去噪计算昂贵——满意的重建需迭代去噪,大多数方法仅约 1 FPS(如 DiAD 0.1 FPS、GLAD 0.2 FPS)。
核心洞察:既然扩散模型仅学习了正常数据分布,不必通过重建来检测异常,可以利用反演(inversion)直接将图像映射到潜空间,正常图像会映射到先验分布的高密度区域,异常图像则映射到低密度区域。这完全绕过了重建过程,天然免除了噪声强度调参问题。
方法详解¶
整体框架¶
输入图像 → 骨干网络提取特征 \(\mathbf{z} = g_\phi(\mathbf{x})\) → DDIM 反演(3步)得到 \(\mathbf{z}_T\) → 基于 \(\mathbf{z}_T\) 在先验分布下的偏差计算异常分数。无需解码器、无需重建。
关键设计¶
-
DDIM 反演加噪(核心): 沿 PF-ODE 轨迹正向推进,从 \(\mathbf{x}_0\) 直接推断 \(\mathbf{x}_T\)。使用 Euler 近似的离散更新:\(\mathbf{x}_{\tau_{i+1}} = \sqrt{\alpha_{\tau_{i+1}}} f_\theta(\mathbf{x}_{\tau_i}) + \sqrt{1-\alpha_{\tau_{i+1}}} \epsilon_\theta^{(\tau_i)}(\mathbf{x}_{\tau_i})\)。关键在于仅需极少反演步数(\(S=3\),子集 \(\tau_3 = [333, 666, 999]\)),因为即使 Euler 近似精度较低,异常像素仍会被映射到先验分布的低密度区域。设计动机:PF-ODE 的确定性保证正常图像与先验分布间的一一映射,异常偏差可直接通过分布典型性度量。
-
特征空间扩散建模: 使用预训练 EfficientNet-B4 提取特征 \(\mathbf{z} = g_\phi(\mathbf{x}) \in \mathbb{R}^{C \times h \times w}\) 作为扩散模型的输入空间,而非原始像素空间。优势:(a) 骨干特征对低级变化(噪声、光照)具有不变性;(b) 更低分辨率带来更高效推理。DiT-gigant 作为扩散模型架构。
-
混合异常评分: 对反演得到的 \(\mathbf{z}_T\),像素级异常图通过通道维度的欧几里得范数计算 \(\mathbf{z}_T^{\text{normed}}[i,j] = \|\mathbf{z}_T[:,i,j]\|_2\)。图像级分数 \(s = \max(A) - \min(A) + \sum_{u,v} A[u,v]\),利用最大-最小值差异缓解反向评分问题(异常通常局部稀疏分布,min-max 差异可滤除全局异常值影响)。
损失函数 / 训练策略¶
- 训练阶段:标准 DDPM \(\epsilon\)-prediction 损失,仅在正常数据上训练
- AdamW 优化器,300 epochs,\(T=1000\),线性噪声调度
- 推理阶段:\(S=3\) 步反演,均匀子集 \(\tau_3 = [333, 666, 999]\)
- 即插即用设计:仅修改推理阶段,可直接替换现有扩散 AD 方法的推理过程
实验关键数据¶
主实验¶
| 数据集 | 指标 | 本文 InvAD | OmiAD (ICML'25) | DiAD (AAAI'24) | FPS |
|---|---|---|---|---|---|
| MVTecAD | I-AUROC | 99.0 | 98.8 | 97.2 | 88.1 vs 39.4 vs 0.1 |
| VisA | I-AUROC | 96.9 | 95.3 | 86.8 | 74.1 vs 35.3 |
| MPDD | I-AUROC | 96.5 | 93.7 | 74.6 | 120 vs 49.8 |
| BMAD (医疗) | mAD | 87.2 | - | - | 88 vs 20 |
消融实验¶
| 配置 | MVTecAD mAD | 说明 |
|---|---|---|
| 仅 FDM (无反演) | 57.3 | 反演是核心组件 |
| 单步反演 (像素空间) | 44.9 | 像素空间扩散 + 单步不足 |
| FDM + 单步反演 | 71.0 | 特征空间 + 单步 |
| FDM + 多步反演 (完整) | 83.7 | 最优配置 |
| 反演步数 \(S\) | 重建方法 (最优 \(r\)) | 反演方法 (本文) |
|---|---|---|
| 3 | 64.9 | 99.0 |
| 5 | 75.0 | 98.9 |
| 10 | 97.9 | 98.4 |
| 50 | 98.0 | 96.0 |
| 1000 | 98.2 | 95.4 |
关键发现¶
- 反演方法在极少步数(\(S=3,5\))时大幅优于重建方法,重建方法需 \(S \geq 50\) 才能达到类似性能
- 反演方法不需要调节扰动时间步(tuning-free),重建方法对 \(r\) 和 \(S\) 高度敏感
- 即插即用:DiAD + InvAD 提升 +1.0 I-AUROC 和 +88 FPS;MDM + InvAD 提升 +6.3 I-AUROC 和 +60.8 FPS
- NLL + Diff 混合评分对步数 \(S\) 鲁棒,单独使用 NLL 或 Diff 则不鲁棒
- 在 BMAD 医疗基准的 6 个数据集上也达到 SOTA(mAD=87.2),证明方法的跨领域通用性
亮点与洞察¶
- 范式创新:从"去噪检测"到"加噪检测"的思维转换是核心贡献,简洁而深刻
- 反演天然免除噪声强度调参和多步重建的计算瓶颈
- \(S=3\) 就能达到 SOTA 的原因在于不需要精确重建,只需区分正常/异常的分布典型性
- 即插即用设计使其可作为现有扩散 AD 方法的通用推理加速器
- 特征空间扩散建模是提升效率和效果的重要设计选择
局限性 / 可改进方向¶
- 仍需多于 1 次函数求值(NFE=3),可通过扩散蒸馏压缩到 1 步
- 像素级定位性能(AP、F1_max)不如部分重建方法,反演方法在精确边界定位上有天然劣势
- 评分方案中 min-max 差异的设计偏经验性,缺乏理论支撑
- DiT-gigant 参数量较大(1223M),MLP 可达相近检测精度但定位更差
- 未探索任务特定的反演机制优化
相关工作与启发¶
- DDIM (Song et al. 2020) 的确定性采样和 PF-ODE 是反演的理论基础
- Heng et al. (2024) 用 score function norm 度量 OOD 典型性的思路启发了本文的评分设计
- OmiAD (Feng et al. 2025) 通过对抗蒸馏实现 1-step 扩散,但训练复杂度高
- 与 EfficientAD (Batzner et al. 2023) 等非扩散方法相比,扩散方法在精度上仍有优势
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "加噪检测"范式是概念性创新,简洁优雅且效果显著
- 实验充分度: ⭐⭐⭐⭐⭐ 4 个工业 + 6 个医疗数据集,全面的消融(组件/骨干/评分/步数/泛化性)
- 写作质量: ⭐⭐⭐⭐ 问题分析清晰,范式对比图直观,表格设计合理
- 价值: ⭐⭐⭐⭐⭐ 实用性极强,即插即用加速现有方法,对工业和医疗 AD 都有重要意义