InvAD: Inversion-based Reconstruction-Free Anomaly Detection with Diffusion Models¶

会议: CVPR 2026 arXiv: 2504.05662 代码: 项目页面领域: 医学图像 关键词: 异常检测, 扩散模型, DDIM反演, 无重建范式, 工业/医疗缺陷检测

一句话总结¶

提出 InvAD，将扩散模型异常检测从"RGB 空间去噪重建"范式转变为"潜空间加噪反演"范式，通过 DDIM 反演直接推断最终潜变量并在先验分布下度量偏差来检测异常，仅需 3 步反演即达 SOTA 性能且推理速度提升约 2 倍。

研究背景与动机¶

基于扩散模型的异常检测（AD）方法虽然成功，但存在根本性的效率-精度矛盾：(1) 噪声强度敏感——过强的噪声破坏正常区域增加假阳性，过弱则异常区域被完美重建导致漏检；(2) 多步去噪计算昂贵——满意的重建需迭代去噪，大多数方法仅约 1 FPS（如 DiAD 0.1 FPS、GLAD 0.2 FPS）。

核心洞察：既然扩散模型仅学习了正常数据分布，不必通过重建来检测异常，可以利用反演（inversion）直接将图像映射到潜空间，正常图像会映射到先验分布的高密度区域，异常图像则映射到低密度区域。这完全绕过了重建过程，天然免除了噪声强度调参问题。

方法详解¶

整体框架¶

输入图像 → 骨干网络提取特征 \(\mathbf{z} = g_\phi(\mathbf{x})\) → DDIM 反演（3步）得到 \(\mathbf{z}_T\) → 基于 \(\mathbf{z}_T\) 在先验分布下的偏差计算异常分数。无需解码器、无需重建。

关键设计¶

DDIM 反演加噪（核心）: 沿 PF-ODE 轨迹正向推进，从 \(\mathbf{x}_0\) 直接推断 \(\mathbf{x}_T\)。使用 Euler 近似的离散更新：\(\mathbf{x}_{\tau_{i+1}} = \sqrt{\alpha_{\tau_{i+1}}} f_\theta(\mathbf{x}_{\tau_i}) + \sqrt{1-\alpha_{\tau_{i+1}}} \epsilon_\theta^{(\tau_i)}(\mathbf{x}_{\tau_i})\)。关键在于仅需极少反演步数（\(S=3\)，子集 \(\tau_3 = [333, 666, 999]\)），因为即使 Euler 近似精度较低，异常像素仍会被映射到先验分布的低密度区域。设计动机：PF-ODE 的确定性保证正常图像与先验分布间的一一映射，异常偏差可直接通过分布典型性度量。
特征空间扩散建模: 使用预训练 EfficientNet-B4 提取特征 \(\mathbf{z} = g_\phi(\mathbf{x}) \in \mathbb{R}^{C \times h \times w}\) 作为扩散模型的输入空间，而非原始像素空间。优势：(a) 骨干特征对低级变化（噪声、光照）具有不变性；(b) 更低分辨率带来更高效推理。DiT-gigant 作为扩散模型架构。
混合异常评分: 对反演得到的 \(\mathbf{z}_T\)，像素级异常图通过通道维度的欧几里得范数计算 \(\mathbf{z}_T^{\text{normed}}[i,j] = \|\mathbf{z}_T[:,i,j]\|_2\)。图像级分数 \(s = \max(A) - \min(A) + \sum_{u,v} A[u,v]\)，利用最大-最小值差异缓解反向评分问题（异常通常局部稀疏分布，min-max 差异可滤除全局异常值影响）。

损失函数 / 训练策略¶

训练阶段：标准 DDPM \(\epsilon\)-prediction 损失，仅在正常数据上训练
AdamW 优化器，300 epochs，\(T=1000\)，线性噪声调度
推理阶段：\(S=3\) 步反演，均匀子集 \(\tau_3 = [333, 666, 999]\)
即插即用设计：仅修改推理阶段，可直接替换现有扩散 AD 方法的推理过程

实验关键数据¶

主实验¶

数据集	指标	本文 InvAD	OmiAD (ICML'25)	DiAD (AAAI'24)	FPS
MVTecAD	I-AUROC	99.0	98.8	97.2	88.1 vs 39.4 vs 0.1
VisA	I-AUROC	96.9	95.3	86.8	74.1 vs 35.3
MPDD	I-AUROC	96.5	93.7	74.6	120 vs 49.8
BMAD (医疗)	mAD	87.2	-	-	88 vs 20

消融实验¶

配置	MVTecAD mAD	说明
仅 FDM (无反演)	57.3	反演是核心组件
单步反演 (像素空间)	44.9	像素空间扩散 + 单步不足
FDM + 单步反演	71.0	特征空间 + 单步
FDM + 多步反演 (完整)	83.7	最优配置

反演步数 \(S\)	重建方法 (最优 \(r\))	反演方法 (本文)
3	64.9	99.0
5	75.0	98.9
10	97.9	98.4
50	98.0	96.0
1000	98.2	95.4

关键发现¶

反演方法在极少步数（\(S=3,5\)）时大幅优于重建方法，重建方法需 \(S \geq 50\) 才能达到类似性能
反演方法不需要调节扰动时间步（tuning-free），重建方法对 \(r\) 和 \(S\) 高度敏感
即插即用：DiAD + InvAD 提升 +1.0 I-AUROC 和 +88 FPS；MDM + InvAD 提升 +6.3 I-AUROC 和 +60.8 FPS
NLL + Diff 混合评分对步数 \(S\) 鲁棒，单独使用 NLL 或 Diff 则不鲁棒
在 BMAD 医疗基准的 6 个数据集上也达到 SOTA（mAD=87.2），证明方法的跨领域通用性

亮点与洞察¶

范式创新：从"去噪检测"到"加噪检测"的思维转换是核心贡献，简洁而深刻
反演天然免除噪声强度调参和多步重建的计算瓶颈
\(S=3\) 就能达到 SOTA 的原因在于不需要精确重建，只需区分正常/异常的分布典型性
即插即用设计使其可作为现有扩散 AD 方法的通用推理加速器
特征空间扩散建模是提升效率和效果的重要设计选择

局限性 / 可改进方向¶

仍需多于 1 次函数求值（NFE=3），可通过扩散蒸馏压缩到 1 步
像素级定位性能（AP、F1_max）不如部分重建方法，反演方法在精确边界定位上有天然劣势
评分方案中 min-max 差异的设计偏经验性，缺乏理论支撑
DiT-gigant 参数量较大（1223M），MLP 可达相近检测精度但定位更差
未探索任务特定的反演机制优化

评分¶

新颖性: ⭐⭐⭐⭐⭐ "加噪检测"范式是概念性创新，简洁优雅且效果显著
实验充分度: ⭐⭐⭐⭐⭐ 4 个工业 + 6 个医疗数据集，全面的消融（组件/骨干/评分/步数/泛化性）
写作质量: ⭐⭐⭐⭐ 问题分析清晰，范式对比图直观，表格设计合理
价值: ⭐⭐⭐⭐⭐ 实用性极强，即插即用加速现有方法，对工业和医疗 AD 都有重要意义