Exploring Multimodal Prompts For Unsupervised Continuous Anomaly Detection¶

日期: 2026-03-23
arXiv: 2603.21562
代码: 无
领域: 多模态VLM / 异常检测
关键词: unsupervised anomaly detection, continual learning, multimodal prompts, CLIP, memory bank

一句话总结¶

提出多模态持续异常检测框架，通过持续多模态提示记忆库（CMPMB，融合可学习文本提示+视觉提示）和缺陷语义引导自适应融合机制（DSG-AFM，含自适应归一化+动态融合策略），在 MVTec AD 和 VisA 上 AUROC 检测精度提升 4.4%，分割精度提升 14.8%。

研究背景与动机¶

领域现状: 无监督异常检测（UAD）分为 one-for-one（每类一模型，计算重）和 unified multiclass（一个模型多类，需同时训练）两种范式。持续学习框架（UCAD）通过按序学习新类缓解灾难性遗忘。
现有痛点: 现有 UCAD 方法仅依赖视觉信息，不足以在复杂场景中捕捉正常模式的流形。多模态信息（文本+视觉）可以提供互补表示，但尚未被 UCAD 方法利用。
核心矛盾: 视觉特征单模态难以全面刻画"什么是正常"，尤其在产品频繁更换（持续学习）场景下。文本描述可以从语义层面辅助定义正常模式。
切入角度: 借助 CLIP 的多模态对齐框架，构建可学习的文本提示和视觉提示，在持续学习过程中逐步积累和更新两种模态的正常模式表示。
核心 idea: 多模态提示记忆库（任务识别键+文本提示+视觉提示+正常特征库） + 缺陷语义引导融合 = 持续异常检测的多模态增强。

方法详解¶

整体框架¶

冻结预训练视觉骨干（ViT）+ CLIP 文本编码器。CMPMB 为每个任务 \(t\) 维护四元组 \(M_t = (K_t, P_t^T, P_t^V, F_t)\)：任务识别键、文本提示、视觉提示、正常特征库。测试时先匹配任务身份，再用对应的多模态提示做异常检测。DSG-AFM 融合视觉和文本分支的异常分数。

关键设计¶

持续多模态提示记忆库（CMPMB）:
- 任务识别键 \(K_t\)：用 FPS 从 patch 级视觉特征中提取低维高辨识度的任务表示
- 文本提示 \(P_t^T\)：可学习向量，模板 "a photo of a [class] with \([P_t^T]\)"，通过对比学习（MSE + 高斯噪声增强）优化
- 视觉提示 \(P_t^V\)：prefix tuning 方式注入 ViT 每层，通过结构化对比损失优化
- 正常特征库 \(F_t\)：coreset sampling 压缩正常 patch 特征
缺陷语义引导自适应融合（DSG-AFM）:
- 视觉分支：ViT 特征 + 视觉提示 → patch 级与正常特征库最近邻距离 → 异常分数 \(S_V\)
- 文本分支：CLIP 文本编码 + 文本提示 → 像素级相似度 → 异常分数 \(S_T\)
- 自适应归一化模块（ANM）：动态归一化两分支输出的异常分数
- 动态融合策略（DFS）：根据上下文自适应地平衡 \(S_V\) 和 \(S_T\)

训练策略¶

文本提示用 MSE + 高斯噪声增强样本优化
视觉提示用结构化对比损失（SAM 分割结果做 patch 级正负样本）优化
持续学习：每个新任务只训练对应提示，冻结骨干，通过记忆库保留旧任务知识

实验关键数据¶

MVTec AD 主实验¶

方法	Image AUROC	提升
UCAD (先前 SOTA)	baseline	-
Ours	+4.4%	检测
Ours	+14.8%	分割

ACM MM 2025 收录论文

关键发现¶

多模态提示比纯视觉提示在持续学习设置下遗忘更少
DSG-AFM 的动态融合比简单加权平均性能更好
需要 coreset sampling 限制记忆库大小以保证可扩展性

亮点与洞察¶

首次将多模态提示引入持续异常检测: CLIP 对齐的文本-视觉提示为正常模式提供语义和视觉的双重锚定
任务无关推理: 通过任务识别键自动匹配，实际部署时不需要提供任务身份信息
工业场景实用性: 产品线频繁变化（持续学习）+ 无异常标注（无监督）是真实工业需求

局限性 / 可改进方向¶

每个新任务仍需一定数量的正常样本做适配训练
记忆库会随任务数增长，长期扩展性有待验证
仅在 MVTec AD 和 VisA 两个工业数据集上验证，自然场景异常检测未测试
高斯噪声增强的异常模拟较为简单

评分¶

新颖性: ⭐⭐⭐⭐ 多模态提示在持续异常检测中的新应用
实验充分度: ⭐⭐⭐⭐ MVTec AD + VisA，完整消融
写作质量: ⭐⭐⭐ 细节丰富但符号较多
价值: ⭐⭐⭐⭐ 对工业异常检测有实际价值，MM'25 收录