MMR-AD: A Large-Scale Multimodal Dataset for Benchmarking General Anomaly Detection with MLLMs¶

会议: CVPR 2026
arXiv: 2604.10971
代码: https://xcyao00.github.io/MMR-AD
领域: AI安全/异常检测
关键词: 异常检测, 多模态大语言模型, 推理数据集, 强化学习, 通用异常检测

一句话总结¶

MMR-AD 构建了当前最大规模的多模态推理型工业异常检测数据集（127K 图像、188 类产品、395 种异常），并提出基于 GRPO 强化学习的 Anomaly-R1 基线模型，显著优于通用 MLLM。

研究背景与动机¶

领域现状：工业异常检测从单类→多类→跨类不断发展，通用异常检测（GAD）是终极目标：训练一个通用模型直接检测新类别的异常而无需重训练。MLLM 因强大的视觉理解和语言推理能力，被视为实现 GAD 的有力工具。

现有痛点：(1) MLLM 预训练数据与工业 AD 场景有显著差距；(2) 现有 AD 数据集是图像格式，不适合 MLLM 后训练；(3) 现有多模态 AD 数据集（MMAD、Anomaly-Instruct-125K）要么只有选择题无推理、要么包含大量非工业场景 Web 数据。

核心矛盾：通用 MLLM 在工业 AD 上的精度远未达实际需求，尤其是精确的异常定位，而解决此问题需要大规模的高质量多模态 AD 训练数据。

本文目标：构建训练+评估兼用的大规模推理型多模态 AD 数据集，并验证基于强化学习的 AD 基线模型。

核心 idea：从 14 个公开 AD 数据集中人工审核筛选+标注边界框，自动生成推理型文本，并用 GRPO 强化学习训练推理型 AD 模型。

方法详解¶

整体框架¶

数据集构建：14 个公开 AD 数据集 → 人工审核去低质量 → 标注边界框和文本标签 → Qwen2.5-VL-72B 自动生成推理文本（参考图+输入图+视觉/文本提示） → 验证文本一致性。基线模型：Qwen2.5-VL + LoRA → SFT 冷启动 → GRPO 强化学习 + 对比采样 + 领域知识注入。

关键设计¶

推理型文本生成管线:
- 功能：为每个 AD 样本生成包含详细推理过程的文本标注
- 核心思路：提供配对的正常参考图和待检测图给 Qwen2.5-VL-72B，加上红色边界框视觉提示和异常类型/坐标文本提示，要求模型生成"先推理后回答"格式的文本。通过提取预测区域与真实区域的一致性来验证
- 设计动机：异常的本质是相对正常的偏差，参考图让模型知道什么是正常的；推理文本比简单答案更有助于模型学习逐步分析比较的能力
对比采样 + 一致性惩罚的 GRPO:
- 功能：通过强化学习增强推理能力和定位精度
- 核心思路：结果奖励（答案正确+1）+ 一致性惩罚（定位不准时每个未检出框-0.2）。对比采样确保每个 query 同时有正/负响应：将 MMR-AD 的正确文本作为保底正例，对全正响应用对抗提示生成负例
- 设计动机：仅靠答案正确的奖励会强化"瞎猜 Yes"的模式，一致性惩罚迫使模型真正学会定位异常；对比采样解决了 GRPO 中所有响应相同导致零梯度的问题
领域知识注入:
- 功能：引导模型关注特定产品类别的已知异常类型
- 核心思路：在提示中加入"该产品可能出现以下异常类型：broken, deformation..."，引导模型检查特定异常而非将所有差异视为异常
- 设计动机：工业场景中正常变异和异常的界限需要领域知识来界定

损失函数 / 训练策略¶

SFT 冷启动 → GRPO 强化学习。GRPO 使用 PPO clip + KL 惩罚目标函数。

实验关键数据¶

主实验¶

模型	MVTecAD 检测Acc	MVTecAD 定位Acc	VisA 检测Acc
GPT-4o	~70%	~30%	~65%
Gemini-2.5	~72%	~35%	~68%
Anomaly-R1-7B	~85%	~60%	~80%
Anomaly-R1-7B† (+ 领域知识)	~88%	~65%	~83%

消融实验¶

配置	检测	定位	说明
Full (SFT+RL)	最优	最优	完整模型
SFT only	次优	中等	RL 提升定位显著
Direct RL (无 SFT)	差	差	冷启动必要
w/o 一致性惩罚	检测好	定位差	模型学会瞎猜 Yes

关键发现¶

当前最强通用 MLLM（GPT-4o、Gemini-2.5）的工业 AD 精度远未达实际标准，尤其精确定位很差
推理型文本比简单答案文本更有助于模型学习通用 AD 能力
强化学习相比纯 SFT 在定位精度上提升最为显著
领域知识注入进一步提升了性能

亮点与洞察¶

数据集的可改进性：提供原始边界框，未来可用更强 MLLM 重新生成文本，这种前瞻性设计值得借鉴
一致性惩罚：巧妙地将定位精度引入奖励函数，避免了"正确但不精确"的强化学习陷阱

局限与展望¶

文本由 Qwen2.5-VL-72B 生成，存在模型偏差
127K 图像虽然规模大但部分类别数据仍不均衡
未来可探索更多 RL 算法和更大规模模型

评分¶

新颖性: ⭐⭐⭐⭐ 首个大规模推理型 AD 数据集，RL 基线有实用价值
实验充分度: ⭐⭐⭐⭐⭐ 多模型对比、消融、RL 技巧分析都很充分
写作质量: ⭐⭐⭐⭐ 数据集构建和方法描述清晰
价值: ⭐⭐⭐⭐⭐ 数据集对 AD 社区贡献很大