CVPR2026 Findings 图像生成少样本异常生成扩散模型图像修复工业质检提示学习空间自适应引导掩码对齐

MAGIC: Few-Shot Mask-Guided Anomaly Inpainting with Prompt Perturbation, Spatially Adaptive Guidance, and Context Awareness¶

会议: CVPR2026 Findings
arXiv: 2507.02314
代码: GitHub
领域: 图像生成 / 异常检测
关键词: 少样本异常生成, 扩散模型, inpainting, 工业质检, prompt扰动, 空间自适应引导, 掩码对齐
作者: JaeHyuck Choi, MinJun Kim, Je Hyeong Hong (汉阳大学)

一句话总结¶

提出 MAGIC 框架，通过微调 inpainting 扩散模型，结合高斯 prompt 扰动、掩码引导空间噪声注入和上下文感知掩码对齐三个互补模块，在少样本条件下生成高保真、多样化、空间合理的工业异常图像，在 MVTec-AD 下游任务上达到 SOTA。

背景与动机¶

工业质检场景中，正常图像大量可得，但异常图像极其稀缺。虽然异常检测可以仅靠正常样本训练（如单类分类、重建方法），但异常分类（对根因分析至关重要）仍然需要有标签的异常样本。因此，利用生成模型合成真实感异常图像成为关键需求。

现有扩散模型方案存在两类问题： - 全局异常生成（GAG）方法（如 DualAnoDiff）同时生成异常图像和掩码，但由于不接受正常图像引导，经常破坏正常背景纹理 - 掩码引导异常生成（MAG）方法（如 AnomalyDiffusion、AnoGen）保留背景，但存在异常区域与输入掩码不对齐、掩码偏移到物体边界外等问题，且冻结骨干网络限制了生成质量

核心矛盾在于：直接对 inpainting 模型进行少样本微调可以保证背景保真和掩码对齐，但会严重过拟合——生成结果缺乏多样性，且当掩码放在语义不合理的位置时生成质量差。

方法详解¶

整体框架¶

MAGIC 基于 Stable Diffusion 2 inpainting 模型，使用 DreamBooth 进行微调。采用一个固定的稀有 token（如"sks"）作为异常 prompt，避免物体特定文本描述的需求。整体流程为：

训练阶段：将异常图像 \(I_A\)、真实掩码 \(M_{GT}\) 和被掩码遮挡的正常背景 \(I_A^M\) 拼接为输入，配合经高斯扰动的 prompt embedding \(c_p\) 训练 inpainting 网络
推理阶段：给定正常图像 \(I_N\) 和自动生成的掩码 \(M\)，先通过 CAMA 对齐掩码到合理位置得到 \(M_a\)，然后用随机扰动的 \(c_p\) 和 MGNI 局部噪声注入进行去噪生成

关键设计一：高斯 Prompt 扰动（GPP）¶

GPP 的核心思想是在 prompt embedding 空间注入高斯噪声以增加全局纹理多样性。对固定 prompt \(\mathcal{P}\) 编码后加入扰动：

\[c_p = \tau(\mathcal{P}) + \delta, \quad \delta \sim \mathcal{N}(0, \sigma^2 I)\]

关键创新在于训练和推理阶段同时使用 GPP。如果仅在推理时加噪，模型会因分布偏移产生不真实的纹理。而在训练时也加入相同分布的扰动，模型学到了从 embedding 空间到图像空间的平滑映射——本质上是让异常概念对应一个 embedding 球而非单个点。推理时从同一球上采样自然产生多样但逼真的异常。\(\sigma\) 设为 1.0。

关键设计二：掩码引导空间噪声注入（MGNI）¶

MGNI 在 DDIM 去噪过程中，仅在掩码区域内注入额外的随机噪声以增强局部纹理多样性。噪声强度由尺度因子 \(a\)（从 \([0, 0.6]\) 均匀采样）和时间衰减函数控制：

\[\lambda(t) = a \cdot \mathbb{1}_{t > t_{\min}}\]

即在去噪早期（\(t \approx 1\)）注入噪声以丰富纹理，在后期（\(t \to 0\)）恢复标准 DDIM 更新以保证保真度。DDIM 更新公式在标准项基础上增加了局部化噪声项 \(\sqrt{1-\alpha_{t-1}} \cdot \lambda(t) \cdot M \cdot \eta_t\)，仅作用于掩码像素区域，从而不影响背景。

关键设计三：上下文感知掩码对齐（CAMA）¶

CAMA 解决掩码放置位置不合理的问题。对于物体型类别（如螺丝、电缆），异常只应出现在特定语义子区域。CAMA 使用预训练的 GeoAware-SC 语义对应模型，从异常训练样本中提取三个关键点（掩码质心 \(p_c\)、上边界点 \(p_u\)、下边界点 \(p_\ell\)），建立与正常图像的语义对应关系：

对每个关键点生成相似度图 \(S_u, S_c, S_\ell\)
匹配上下边界点得到 \(q_u^*, q_\ell^*\)，构建候选线 \(\mathcal{L}\)
在候选线、前景掩码 \(M_f\) 和相似度图 \(S_c\) 的联合约束下优化质心位置 \(q_c^*\)
将掩码平移至新位置并与前景取交集

这样只需三个关键点即可完成鲁棒的掩码迁移，兼顾精度和效率。

实验关键数据¶

生成质量评估（MVTec-AD, Table 1）¶

方法	KID (×10³) ↓	IC-LPIPS ↑
AnomalyDiffusion	104.01	0.30
AnoGen	105.39	0.31
DualAnoDiff	96.82	0.36
MAGIC (Ours)	46.06	0.30

MAGIC 的 KID 分数大幅领先（低 52%+），表明生成分布与真实异常最为接近。DualAnoDiff 的 IC-LPIPS 较高部分归因于背景破坏带来的虚假多样性。

下游异常分类准确率（ResNet-34, Table 2）¶

方法	平均分类准确率 (%)
Crop-Paste	56.17
AnomalyDiffusion	64.90
AnoGen	56.92
DualAnoDiff	68.50
MAGIC (Ours)	76.39

MAGIC 分类准确率比次优方法 DualAnoDiff 高 7.89 个百分点。在 hazelnut（95.83%）、screw（83.95%）等类别上提升尤为显著。

下游异常检测与定位（U-Net, Table 3）¶

方法	AUROC-P	AP-P	F1-P	AP-I
Crop-Paste	94.4	69.1	70.7	98.9
AnomalyDiffusion	98.2	75.0	73.2	99.1
DualAnoDiff	97.4	76.8	72.9	98.6
MAGIC (Ours)	99.0	81.7	77.4	99.5

在所有像素级和图像级指标上 MAGIC 均达最优，AP-P 领先次优近 5 个百分点。

消融实验（Table 4）¶

GPP	MGNI	CAMA	KID↓	分类准确率(%)
✗	✗	✗	40.36	70.09
✓	✗	✗	33.87	74.07
✓	✓	✗	40.13	74.50
✓	✓	✓	38.76	76.39

GPP 单独使用显著降低 KID 并提升分类~3%；MGNI 增加多样性虽略微提升 KID 但改善下游表现；CAMA 在物体类别上带来额外~2.85% 提升。

关键发现¶

在 prompt embedding 空间注入高斯扰动比简单换随机种子更能有效增加全局纹理多样性
训练时也使用 GPP 是关键——仅推理时用会导致分布偏移产生不真实纹理
空间局部噪声注入（MGNI）和 prompt 级扰动（GPP）分别增强局部和全局多样性，二者互补
仅用三个关键点的语义对应就能完成高效掩码对齐，比密集对应计算成本低得多

亮点与洞察¶

问题定义精准：明确提出异常生成器需同时满足三个需求（背景保真、掩码对齐、语义合理位置），现有方法最多满足两个
从个性化生成技术迁移洞察：借鉴 DreamBooth 微调获得保真度，但通过 embedding 空间扰动恢复多样性——本质是在过拟合和欠拟合之间找平衡
不需要物体特定文本描述：仅用"sks"这样的稀有 token，提升了对无语义标签的工业零件的通用性
评价公平性：所有基线方法统一复现、统一评估协议、不做手动筛选，评价可信度高
训练与推理的对称性设计（GPP 同时在 train 和 test 使用）体现了对分布一致性的深刻理解

局限性¶

CAMA 依赖输入掩码与真实缺陷形状的粗略匹配，偏差过大时语义对应不准
依赖预训练组件（U2-Net 提取前景、GeoAware-SC 做语义对应），在重复结构或未见领域可能失效
仅在 MVTec-AD 一个数据集上验证，未测试 VisA 等其他常用异常数据集
每个异常类别需独立训练约 1.5 小时（5000 步），类别数多时训练成本较高
CAMA 增加推理时间（约 5 倍），实时性受限

评分¶

新颖性: ⭐⭐⭐⭐ — 三个模块各有新意，GPP 训练推理对称设计尤其巧妙
实验充分度: ⭐⭐⭐⭐ — 消融完整、公平对比、下游任务覆盖全面，但仅一个数据集略显不足
写作质量: ⭐⭐⭐⭐ — 问题动机清晰，方法表述完整，图表质量好
价值: ⭐⭐⭐⭐ — 对工业异常检测的数据增强具有实用价值，技术洞察可迁移