跳转至

Exploring Multimodal Prompts For Unsupervised Continuous Anomaly Detection

日期: 2026-03-23
arXiv: 2603.21562
代码: 无
领域: 多模态VLM / 异常检测
关键词: unsupervised anomaly detection, continual learning, multimodal prompts, CLIP, memory bank

一句话总结

提出多模态持续异常检测框架,通过持续多模态提示记忆库(CMPMB,融合可学习文本提示+视觉提示)和缺陷语义引导自适应融合机制(DSG-AFM,含自适应归一化+动态融合策略),在 MVTec AD 和 VisA 上 AUROC 检测精度提升 4.4%,分割精度提升 14.8%。

研究背景与动机

  1. 领域现状: 无监督异常检测(UAD)分为 one-for-one(每类一模型,计算重)和 unified multiclass(一个模型多类,需同时训练)两种范式。持续学习框架(UCAD)通过按序学习新类缓解灾难性遗忘。

  2. 现有痛点: 现有 UCAD 方法仅依赖视觉信息,不足以在复杂场景中捕捉正常模式的流形。多模态信息(文本+视觉)可以提供互补表示,但尚未被 UCAD 方法利用。

  3. 核心矛盾: 视觉特征单模态难以全面刻画"什么是正常",尤其在产品频繁更换(持续学习)场景下。文本描述可以从语义层面辅助定义正常模式。

  4. 切入角度: 借助 CLIP 的多模态对齐框架,构建可学习的文本提示和视觉提示,在持续学习过程中逐步积累和更新两种模态的正常模式表示。

  5. 核心 idea: 多模态提示记忆库(任务识别键+文本提示+视觉提示+正常特征库) + 缺陷语义引导融合 = 持续异常检测的多模态增强。

方法详解

整体框架

冻结预训练视觉骨干(ViT)+ CLIP 文本编码器。CMPMB 为每个任务 \(t\) 维护四元组 \(M_t = (K_t, P_t^T, P_t^V, F_t)\):任务识别键、文本提示、视觉提示、正常特征库。测试时先匹配任务身份,再用对应的多模态提示做异常检测。DSG-AFM 融合视觉和文本分支的异常分数。

关键设计

  1. 持续多模态提示记忆库(CMPMB):

    • 任务识别键 \(K_t\):用 FPS 从 patch 级视觉特征中提取低维高辨识度的任务表示
    • 文本提示 \(P_t^T\):可学习向量,模板 "a photo of a [class] with \([P_t^T]\)",通过对比学习(MSE + 高斯噪声增强)优化
    • 视觉提示 \(P_t^V\):prefix tuning 方式注入 ViT 每层,通过结构化对比损失优化
    • 正常特征库 \(F_t\):coreset sampling 压缩正常 patch 特征
  2. 缺陷语义引导自适应融合(DSG-AFM):

    • 视觉分支:ViT 特征 + 视觉提示 → patch 级与正常特征库最近邻距离 → 异常分数 \(S_V\)
    • 文本分支:CLIP 文本编码 + 文本提示 → 像素级相似度 → 异常分数 \(S_T\)
    • 自适应归一化模块(ANM):动态归一化两分支输出的异常分数
    • 动态融合策略(DFS):根据上下文自适应地平衡 \(S_V\)\(S_T\)

训练策略

  • 文本提示用 MSE + 高斯噪声增强样本优化
  • 视觉提示用结构化对比损失(SAM 分割结果做 patch 级正负样本)优化
  • 持续学习:每个新任务只训练对应提示,冻结骨干,通过记忆库保留旧任务知识

实验关键数据

MVTec AD 主实验

方法 Image AUROC 提升
UCAD (先前 SOTA) baseline -
Ours +4.4% 检测
Ours +14.8% 分割

ACM MM 2025 收录论文

关键发现

  • 多模态提示比纯视觉提示在持续学习设置下遗忘更少
  • DSG-AFM 的动态融合比简单加权平均性能更好
  • 需要 coreset sampling 限制记忆库大小以保证可扩展性

亮点与洞察

  • 首次将多模态提示引入持续异常检测: CLIP 对齐的文本-视觉提示为正常模式提供语义和视觉的双重锚定
  • 任务无关推理: 通过任务识别键自动匹配,实际部署时不需要提供任务身份信息
  • 工业场景实用性: 产品线频繁变化(持续学习)+ 无异常标注(无监督)是真实工业需求

局限性 / 可改进方向

  • 每个新任务仍需一定数量的正常样本做适配训练
  • 记忆库会随任务数增长,长期扩展性有待验证
  • 仅在 MVTec AD 和 VisA 两个工业数据集上验证,自然场景异常检测未测试
  • 高斯噪声增强的异常模拟较为简单

评分

  • 新颖性: ⭐⭐⭐⭐ 多模态提示在持续异常检测中的新应用
  • 实验充分度: ⭐⭐⭐⭐ MVTec AD + VisA,完整消融
  • 写作质量: ⭐⭐⭐ 细节丰富但符号较多
  • 价值: ⭐⭐⭐⭐ 对工业异常检测有实际价值,MM'25 收录