Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models¶

会议: CVPR 2025
arXiv: 2502.07601
代码: https://xujiacong.github.io/Anomaly-OV/
领域: 多模态VLM
关键词: 零样本异常检测、MLLM专家系统、视觉特征匹配、异常推理、工业检测

一句话总结¶

首个专用于零样本异常检测和推理的 MLLM（Anomaly-OV），通过 Look-Twice Feature Matching 机制生成异常显著性图，配合视觉 Token 选择器聚焦可疑区域，在 9 个基准上实现 88.6% 平均 AUROC 的零样本异常检测 SOTA。

领域现状：零样本异常检测（ZSAD）旨在不使用目标类别正常样本的情况下检测异常。现有方法如 WinCLIP、AnomalyCLIP 使用 CLIP 文本编码器构建正常/异常描述做匹配，但依赖文本编码器的语义能力有限。

现有痛点：(1) 通用 MLLM（如 GPT-4o）虽能检测异常但无法准确描述和定位——检测准确率 70% 但推理描述不精确。(2) 现有 ZSAD 方法只能给出二分类结果，无法解释"为什么异常"。(3) 工业、医疗、3D 等不同领域的异常模式差异大，单一模型难以覆盖。

核心矛盾：MLLM 有推理能力但缺乏异常检测的专业视觉感知；专用异常检测模型有视觉精度但无法推理解释。

本文目标 将异常检测的专业视觉能力注入 MLLM，使其同时具备高精度检测和自然语言推理能力。

切入角度：设计一个"异常专家"模块——用多层 ViT 特征 + 可学习的正常/异常 embedding 做 Look-Twice Feature Matching，生成异常显著性图。显著性图指导视觉 token 选择，让 MLLM 聚焦于可疑区域。

核心 idea：用多层视觉特征匹配生成异常显著性图作为 MLLM 的"放大镜"，使其既能精准定位异常又能用自然语言解释。

两阶段训练：Stage 1 训练异常专家（多层 ViT 特征 + 可学习 \(e^+\)/\(e^-\) embedding → LTFM 生成显著性图）→ Stage 2 冻结专家和视觉编码器，训练投影层 + LLM，使用 Anomaly-Instruct-125K 指令数据。

Look-Twice Feature Matching（LTFM）:
- 功能：生成逐像素的异常显著性图
- 核心思路：第一次"看"：将多层 ViT 特征与可学习正常 embedding \(e^+\) 和异常 embedding \(e^-\) 做协方差匹配。第二次"看"（look-back path）：用第一次的匹配结果调制原始特征再匹配，类似"回头仔细看"。两次匹配结果融合为最终显著性图
- 设计动机：单次匹配对细微异常不够灵敏，look-back 机制提供了自校正能力。消融显示去掉 look-back AUROC 降 1.2 个点
视觉 Token 选择器:
- 功能：让 MLLM 聚焦于显著性高的可疑区域
- 核心思路：将视觉 token 与显著性图相乘 → 空间池化 → Q-Former 聚合成精选 token。同时用指示 prompt（\(\langle adv \rangle\) suspicious feature: 其中 adv \(\in\) {highly, moderately, slightly}）桥接原始 token 和精选 token
- 设计动机：MLLM 不需要看所有视觉 token——聚焦于可疑区域使推理更精确
Anomaly-Instruct-125K 数据集:
- 功能：覆盖多领域的异常检测指令微调数据
- 核心思路：125K 样本涵盖工业（MVTec、VisA）、医疗（BrainMRI、HeadCT）、3D（MVTec-3D）、野外（WebAD 72K 张网络图片）。包含检测、定位、描述、推理四种任务类型
- 设计动机：WebAD 贡献了 MVTec 上 +5.5% AUROC 的提升，说明野外异常数据对学习通用异常语义至关重要

Stage 1：异常专家用二分类 + 显著性图损失训练。Stage 2：冻结专家 + ViT，标准 next-token prediction 训练 LLM + 投影层。

方法	MVTec	VisA	AITEX	BrainMRI	HeadCT	9 基准平均
WinCLIP	91.8	78.8	73.0	92.6	90.0	79.2
AnomalyCLIP	91.5	82.1	62.2	90.3	93.4	84.5
Anomaly-OV	94.0	91.1	72.0	93.9	97.6	88.6

配置	MVTec	VisA	HeadCT
完整模型	94.0	91.1	97.6
无 look-back	92.8	90.5	96.6
无 \(e^+\)/\(e^-\)	92.1	90.1	94.7
无 WebAD	88.5	88.9	91.2

文本编码器不是必须的：Anomaly-OV 不使用文本编码器做匹配（纯视觉），仍超越所有 CLIP 基方法
WebAD 是关键：72K 野外异常图片贡献了 MVTec 上 +5.5% AUROC，通用异常语义的预训练至关重要
检测+推理一体化：GPT-4o 在 VisA-D&R 上检测 Acc 70% 但 F1 仅 68%，Anomaly-OV 达 79% Acc 和 83% F1