CoPS: Conditional Prompt Synthesis for Zero-Shot Anomaly Detection¶

会议: CVPR 2026
arXiv: 2508.03447
代码: https://github.com/cqylunlun/CoPS
领域: 目标检测
关键词: 零样本异常检测, 条件提示合成, CLIP, 视觉语言模型, 工业缺陷

一句话总结¶

本文提出 CoPS 框架，通过显式状态token合成（ESTS）和隐式类别token采样（ICTS）两种视觉条件化机制动态生成提示，配合空间感知对齐（SAGA），在13个工业和医学数据集上实现零样本异常检测SOTA。

研究背景与动机¶

领域现状：大规模预训练视觉-语言模型在零样本异常检测（ZSAD）中展现出良好的跨类别泛化能力。现有方法通过在单个辅助数据集上微调来实现跨类别异常检测。
现有痛点：（i）静态可学习token难以捕捉正常和异常状态的连续多样模式，限制了对未见类别的泛化；（ii）固定文本标签提供的类别信息过于稀疏，模型容易过拟合到特定语义子空间。
核心矛盾：提示学习消除了人工设计提示的需求，但其静态性和稀疏性成为泛化的瓶颈——正常/异常状态是连续多变的，而类别标签空间本身就是高度稀疏的。
本文目标：设计一种基于视觉特征条件化的动态提示合成框架，使提示能够自适应地建模输入图像的状态和类别信息。
切入角度：将提示分解为上下文词、状态词、类别词三部分，前者可共享，后两者需根据视觉特征动态生成。
核心idea：通过从局部特征提取正常/异常原型注入状态词（显式），通过VAE从全局特征采样注入类别词（隐式），实现视觉条件化的动态提示合成。

方法详解¶

整体框架¶

基于预训练CLIP，输入图像经冻结视觉编码器提取全局特征 \(\mathbf{g}\) 和局部特征 \(\mathbf{F}\)。ESTS从局部特征中提取正常/异常原型注入状态词，ICTS通过VAE从全局特征采样多样化类别token，最终通过可学习文本编码器和SAGA模块实现图像级和像素级异常检测。

关键设计¶

显式状态token合成（ESTS）:
- 功能：从细粒度局部特征中提取代表性正常和异常原型，显式注入提示的状态词
- 核心思路：使用一致性自注意力（V-V attention）从冻结视觉编码器提取细粒度局部特征 \(\mathbf{F}\)，然后通过原型提取器 \(\mathcal{P}_\theta\) 在中心约束下生成 \(M\) 个正常原型 \(\mathbf{P}_n\) 和异常原型 \(\mathbf{P}_a\)，将其组装为动态状态token替换静态可学习token。
- 设计动机：固定的状态词（如"good"/"damaged"）无法捕捉连续多样的正常/异常模式。通过从实际图像的局部特征中提取原型，可以自适应地建模当前图像的状态，增强泛化能力。
隐式类别token采样（ICTS）:
- 功能：利用VAE对语义全局特征建模，通过采样生成多样化类别token
- 核心思路：使用变分自编码器 \(\mathcal{E}_\psi\) 对全局特征 \(\mathbf{g}\) 的潜在分布进行参数化，从中抽取 \(R\) 个解码样本 \(\mathbf{S} \in \mathbb{R}^{R \times C}\)，作为密集的类别token。这样每个输入图像生成 \(R\) 组完整的正常/异常提示。
- 设计动机：固定的文本标签过于稀疏，无法提供丰富的类别语义信息。通过VAE采样，可以隐式地扩增类别表示的多样性，防止模型过拟合到单一语义子空间。
空间感知全局-局部对齐（SAGA）:
- 功能：结合距离感知空间注意力实现精细的图像-文本对齐
- 核心思路：利用查询特征与最近原型之间的距离近似异常状态，引入距离感知空间注意力机制来细化像素级文本-图像对齐。同时采用全局-局部（glocal）相似性交互来增强图像级对齐。最终输出图像级异常分数 \(s_{\text{cls}}\) 和像素级异常图 \(\mathcal{S}_{\text{seg}}\)。
- 设计动机：标准的全局对齐忽略了局部空间信息，而异常检测本质上需要精确的空间定位能力。

损失函数 / 训练策略¶

采用二元焦点损失用于图像级分类，Dice损失和二元交叉熵损失用于像素级分割。仅在单个辅助训练集（MVTec AD等）上微调，测试时直接应用到未见类别。

实验关键数据¶

主实验¶

数据集	指标	CoPS	之前SOTA	提升
13个数据集平均	Cls AUROC	SOTA	-	+1.4%
13个数据集平均	Seg AUROC	SOTA	-	+1.9%
MVTec AD	Cls AUROC	最优	AnomalyCLIP等	显著提升
VisA	Seg AUROC	最优	-	明显优势

消融实验¶

配置	关键指标	说明
Full CoPS	最优	完整模型
w/o ESTS	下降	去掉显式状态合成影响最大
w/o ICTS	下降	去掉隐式类别采样也有明显影响
w/o SAGA	下降	空间感知对齐对分割尤为重要
静态提示 baseline	显著低于CoPS	验证动态提示的必要性

关键发现¶

ESTS贡献最大，说明自适应的状态建模是零样本异常检测的核心挑战。
ICTS的VAE采样能有效缓解类别标签稀疏问题，尤其在跨域场景（工业→医学）中作用显著。
距离感知空间注意力对像素级分割质量提升明显，但对图像级分类影响较小。

亮点与洞察¶

提示分解的设计哲学巧妙：上下文词共享+状态词显式注入+类别词隐式采样，各司其职。
VAE隐式扩增是一个优雅的trick：用采样替代固定标签，自然地增加了类别表示的多样性。
一致性自注意力（V-V）的使用避免了额外适配模块的引入，保持了CLIP特征的原始语义。

局限与展望¶

依赖CLIP的预训练特征空间，对CLIP未覆盖的视觉域（如特殊工业场景）可能效果有限。
原型数量M和采样数量R需要手动调参。
未来可探索自适应确定原型数量，或引入更强的视觉基础模型替换CLIP。

评分¶

新颖性: ⭐⭐⭐⭐ 显式+隐式双路径动态提示合成是新颖的组合
实验充分度: ⭐⭐⭐⭐⭐ 13个数据集全面验证，消融完整
写作质量: ⭐⭐⭐⭐ 结构清晰，方法讲解到位
价值: ⭐⭐⭐⭐ 零样本异常检测领域的实用进展