Exploring Multimodal Prompts For Unsupervised Continuous Anomaly Detection¶
日期: 2026-03-23
arXiv: 2603.21562
代码: 无
领域: 多模态VLM / 异常检测
关键词: unsupervised anomaly detection, continual learning, multimodal prompts, CLIP, memory bank
一句话总结¶
提出多模态持续异常检测框架,通过持续多模态提示记忆库(CMPMB,融合可学习文本提示+视觉提示)和缺陷语义引导自适应融合机制(DSG-AFM,含自适应归一化+动态融合策略),在 MVTec AD 和 VisA 上 AUROC 检测精度提升 4.4%,分割精度提升 14.8%。
研究背景与动机¶
-
领域现状: 无监督异常检测(UAD)分为 one-for-one(每类一模型,计算重)和 unified multiclass(一个模型多类,需同时训练)两种范式。持续学习框架(UCAD)通过按序学习新类缓解灾难性遗忘。
-
现有痛点: 现有 UCAD 方法仅依赖视觉信息,不足以在复杂场景中捕捉正常模式的流形。多模态信息(文本+视觉)可以提供互补表示,但尚未被 UCAD 方法利用。
-
核心矛盾: 视觉特征单模态难以全面刻画"什么是正常",尤其在产品频繁更换(持续学习)场景下。文本描述可以从语义层面辅助定义正常模式。
-
切入角度: 借助 CLIP 的多模态对齐框架,构建可学习的文本提示和视觉提示,在持续学习过程中逐步积累和更新两种模态的正常模式表示。
-
核心 idea: 多模态提示记忆库(任务识别键+文本提示+视觉提示+正常特征库) + 缺陷语义引导融合 = 持续异常检测的多模态增强。
方法详解¶
整体框架¶
冻结预训练视觉骨干(ViT)+ CLIP 文本编码器。CMPMB 为每个任务 \(t\) 维护四元组 \(M_t = (K_t, P_t^T, P_t^V, F_t)\):任务识别键、文本提示、视觉提示、正常特征库。测试时先匹配任务身份,再用对应的多模态提示做异常检测。DSG-AFM 融合视觉和文本分支的异常分数。
关键设计¶
-
持续多模态提示记忆库(CMPMB):
- 任务识别键 \(K_t\):用 FPS 从 patch 级视觉特征中提取低维高辨识度的任务表示
- 文本提示 \(P_t^T\):可学习向量,模板 "a photo of a [class] with \([P_t^T]\)",通过对比学习(MSE + 高斯噪声增强)优化
- 视觉提示 \(P_t^V\):prefix tuning 方式注入 ViT 每层,通过结构化对比损失优化
- 正常特征库 \(F_t\):coreset sampling 压缩正常 patch 特征
-
缺陷语义引导自适应融合(DSG-AFM):
- 视觉分支:ViT 特征 + 视觉提示 → patch 级与正常特征库最近邻距离 → 异常分数 \(S_V\)
- 文本分支:CLIP 文本编码 + 文本提示 → 像素级相似度 → 异常分数 \(S_T\)
- 自适应归一化模块(ANM):动态归一化两分支输出的异常分数
- 动态融合策略(DFS):根据上下文自适应地平衡 \(S_V\) 和 \(S_T\)
训练策略¶
- 文本提示用 MSE + 高斯噪声增强样本优化
- 视觉提示用结构化对比损失(SAM 分割结果做 patch 级正负样本)优化
- 持续学习:每个新任务只训练对应提示,冻结骨干,通过记忆库保留旧任务知识
实验关键数据¶
MVTec AD 主实验¶
| 方法 | Image AUROC | 提升 |
|---|---|---|
| UCAD (先前 SOTA) | baseline | - |
| Ours | +4.4% | 检测 |
| Ours | +14.8% | 分割 |
ACM MM 2025 收录论文
关键发现¶
- 多模态提示比纯视觉提示在持续学习设置下遗忘更少
- DSG-AFM 的动态融合比简单加权平均性能更好
- 需要 coreset sampling 限制记忆库大小以保证可扩展性
亮点与洞察¶
- 首次将多模态提示引入持续异常检测: CLIP 对齐的文本-视觉提示为正常模式提供语义和视觉的双重锚定
- 任务无关推理: 通过任务识别键自动匹配,实际部署时不需要提供任务身份信息
- 工业场景实用性: 产品线频繁变化(持续学习)+ 无异常标注(无监督)是真实工业需求
局限性 / 可改进方向¶
- 每个新任务仍需一定数量的正常样本做适配训练
- 记忆库会随任务数增长,长期扩展性有待验证
- 仅在 MVTec AD 和 VisA 两个工业数据集上验证,自然场景异常检测未测试
- 高斯噪声增强的异常模拟较为简单
评分¶
- 新颖性: ⭐⭐⭐⭐ 多模态提示在持续异常检测中的新应用
- 实验充分度: ⭐⭐⭐⭐ MVTec AD + VisA,完整消融
- 写作质量: ⭐⭐⭐ 细节丰富但符号较多
- 价值: ⭐⭐⭐⭐ 对工业异常检测有实际价值,MM'25 收录