跳转至

MMR-AD: A Large-Scale Multimodal Dataset for Benchmarking General Anomaly Detection with MLLMs

会议: CVPR 2026
arXiv: 2604.10971
代码: https://xcyao00.github.io/MMR-AD
领域: AI安全/异常检测
关键词: 异常检测, 多模态大语言模型, 推理数据集, 强化学习, 通用异常检测

一句话总结

MMR-AD 构建了当前最大规模的多模态推理型工业异常检测数据集(127K 图像、188 类产品、395 种异常),并提出基于 GRPO 强化学习的 Anomaly-R1 基线模型,显著优于通用 MLLM。

研究背景与动机

领域现状:工业异常检测从单类→多类→跨类不断发展,通用异常检测(GAD)是终极目标:训练一个通用模型直接检测新类别的异常而无需重训练。MLLM 因强大的视觉理解和语言推理能力,被视为实现 GAD 的有力工具。

现有痛点:(1) MLLM 预训练数据与工业 AD 场景有显著差距;(2) 现有 AD 数据集是图像格式,不适合 MLLM 后训练;(3) 现有多模态 AD 数据集(MMAD、Anomaly-Instruct-125K)要么只有选择题无推理、要么包含大量非工业场景 Web 数据。

核心矛盾:通用 MLLM 在工业 AD 上的精度远未达实际需求,尤其是精确的异常定位,而解决此问题需要大规模的高质量多模态 AD 训练数据。

本文目标:构建训练+评估兼用的大规模推理型多模态 AD 数据集,并验证基于强化学习的 AD 基线模型。

核心 idea:从 14 个公开 AD 数据集中人工审核筛选+标注边界框,自动生成推理型文本,并用 GRPO 强化学习训练推理型 AD 模型。

方法详解

整体框架

数据集构建:14 个公开 AD 数据集 → 人工审核去低质量 → 标注边界框和文本标签 → Qwen2.5-VL-72B 自动生成推理文本(参考图+输入图+视觉/文本提示) → 验证文本一致性。 基线模型:Qwen2.5-VL + LoRA → SFT 冷启动 → GRPO 强化学习 + 对比采样 + 领域知识注入。

关键设计

  1. 推理型文本生成管线:

    • 功能:为每个 AD 样本生成包含详细推理过程的文本标注
    • 核心思路:提供配对的正常参考图和待检测图给 Qwen2.5-VL-72B,加上红色边界框视觉提示和异常类型/坐标文本提示,要求模型生成"先推理后回答"格式的文本。通过提取预测区域与真实区域的一致性来验证
    • 设计动机:异常的本质是相对正常的偏差,参考图让模型知道什么是正常的;推理文本比简单答案更有助于模型学习逐步分析比较的能力
  2. 对比采样 + 一致性惩罚的 GRPO:

    • 功能:通过强化学习增强推理能力和定位精度
    • 核心思路:结果奖励(答案正确+1)+ 一致性惩罚(定位不准时每个未检出框-0.2)。对比采样确保每个 query 同时有正/负响应:将 MMR-AD 的正确文本作为保底正例,对全正响应用对抗提示生成负例
    • 设计动机:仅靠答案正确的奖励会强化"瞎猜 Yes"的模式,一致性惩罚迫使模型真正学会定位异常;对比采样解决了 GRPO 中所有响应相同导致零梯度的问题
  3. 领域知识注入:

    • 功能:引导模型关注特定产品类别的已知异常类型
    • 核心思路:在提示中加入"该产品可能出现以下异常类型:broken, deformation...",引导模型检查特定异常而非将所有差异视为异常
    • 设计动机:工业场景中正常变异和异常的界限需要领域知识来界定

损失函数 / 训练策略

SFT 冷启动 → GRPO 强化学习。GRPO 使用 PPO clip + KL 惩罚目标函数。

实验关键数据

主实验

模型 MVTecAD 检测Acc MVTecAD 定位Acc VisA 检测Acc
GPT-4o ~70% ~30% ~65%
Gemini-2.5 ~72% ~35% ~68%
Anomaly-R1-7B ~85% ~60% ~80%
Anomaly-R1-7B† (+ 领域知识) ~88% ~65% ~83%

消融实验

配置 检测 定位 说明
Full (SFT+RL) 最优 最优 完整模型
SFT only 次优 中等 RL 提升定位显著
Direct RL (无 SFT) 冷启动必要
w/o 一致性惩罚 检测好 定位差 模型学会瞎猜 Yes

关键发现

  • 当前最强通用 MLLM(GPT-4o、Gemini-2.5)的工业 AD 精度远未达实际标准,尤其精确定位很差
  • 推理型文本比简单答案文本更有助于模型学习通用 AD 能力
  • 强化学习相比纯 SFT 在定位精度上提升最为显著
  • 领域知识注入进一步提升了性能

亮点与洞察

  • 数据集的可改进性:提供原始边界框,未来可用更强 MLLM 重新生成文本,这种前瞻性设计值得借鉴
  • 一致性惩罚:巧妙地将定位精度引入奖励函数,避免了"正确但不精确"的强化学习陷阱

局限与展望

  • 文本由 Qwen2.5-VL-72B 生成,存在模型偏差
  • 127K 图像虽然规模大但部分类别数据仍不均衡
  • 未来可探索更多 RL 算法和更大规模模型

相关工作与启发

  • vs MMAD: MMAD 只有选择题格式,不能训练;MMR-AD 有推理文本可训练
  • vs AnomalyGPT: AnomalyGPT 直接 SFT 无推理过程,泛化性差

评分

  • 新颖性: ⭐⭐⭐⭐ 首个大规模推理型 AD 数据集,RL 基线有实用价值
  • 实验充分度: ⭐⭐⭐⭐⭐ 多模型对比、消融、RL 技巧分析都很充分
  • 写作质量: ⭐⭐⭐⭐ 数据集构建和方法描述清晰
  • 价值: ⭐⭐⭐⭐⭐ 数据集对 AD 社区贡献很大

相关论文