MMR-AD: A Large-Scale Multimodal Dataset for Benchmarking General Anomaly Detection with MLLMs¶
会议: CVPR 2026
arXiv: 2604.10971
代码: https://xcyao00.github.io/MMR-AD
领域: AI安全/异常检测
关键词: 异常检测, 多模态大语言模型, 推理数据集, 强化学习, 通用异常检测
一句话总结¶
MMR-AD 构建了当前最大规模的多模态推理型工业异常检测数据集(127K 图像、188 类产品、395 种异常),并提出基于 GRPO 强化学习的 Anomaly-R1 基线模型,显著优于通用 MLLM。
研究背景与动机¶
领域现状:工业异常检测从单类→多类→跨类不断发展,通用异常检测(GAD)是终极目标:训练一个通用模型直接检测新类别的异常而无需重训练。MLLM 因强大的视觉理解和语言推理能力,被视为实现 GAD 的有力工具。
现有痛点:(1) MLLM 预训练数据与工业 AD 场景有显著差距;(2) 现有 AD 数据集是图像格式,不适合 MLLM 后训练;(3) 现有多模态 AD 数据集(MMAD、Anomaly-Instruct-125K)要么只有选择题无推理、要么包含大量非工业场景 Web 数据。
核心矛盾:通用 MLLM 在工业 AD 上的精度远未达实际需求,尤其是精确的异常定位,而解决此问题需要大规模的高质量多模态 AD 训练数据。
本文目标:构建训练+评估兼用的大规模推理型多模态 AD 数据集,并验证基于强化学习的 AD 基线模型。
核心 idea:从 14 个公开 AD 数据集中人工审核筛选+标注边界框,自动生成推理型文本,并用 GRPO 强化学习训练推理型 AD 模型。
方法详解¶
整体框架¶
数据集构建:14 个公开 AD 数据集 → 人工审核去低质量 → 标注边界框和文本标签 → Qwen2.5-VL-72B 自动生成推理文本(参考图+输入图+视觉/文本提示) → 验证文本一致性。 基线模型:Qwen2.5-VL + LoRA → SFT 冷启动 → GRPO 强化学习 + 对比采样 + 领域知识注入。
关键设计¶
-
推理型文本生成管线:
- 功能:为每个 AD 样本生成包含详细推理过程的文本标注
- 核心思路:提供配对的正常参考图和待检测图给 Qwen2.5-VL-72B,加上红色边界框视觉提示和异常类型/坐标文本提示,要求模型生成"先推理后回答"格式的文本。通过提取预测区域与真实区域的一致性来验证
- 设计动机:异常的本质是相对正常的偏差,参考图让模型知道什么是正常的;推理文本比简单答案更有助于模型学习逐步分析比较的能力
-
对比采样 + 一致性惩罚的 GRPO:
- 功能:通过强化学习增强推理能力和定位精度
- 核心思路:结果奖励(答案正确+1)+ 一致性惩罚(定位不准时每个未检出框-0.2)。对比采样确保每个 query 同时有正/负响应:将 MMR-AD 的正确文本作为保底正例,对全正响应用对抗提示生成负例
- 设计动机:仅靠答案正确的奖励会强化"瞎猜 Yes"的模式,一致性惩罚迫使模型真正学会定位异常;对比采样解决了 GRPO 中所有响应相同导致零梯度的问题
-
领域知识注入:
- 功能:引导模型关注特定产品类别的已知异常类型
- 核心思路:在提示中加入"该产品可能出现以下异常类型:broken, deformation...",引导模型检查特定异常而非将所有差异视为异常
- 设计动机:工业场景中正常变异和异常的界限需要领域知识来界定
损失函数 / 训练策略¶
SFT 冷启动 → GRPO 强化学习。GRPO 使用 PPO clip + KL 惩罚目标函数。
实验关键数据¶
主实验¶
| 模型 | MVTecAD 检测Acc | MVTecAD 定位Acc | VisA 检测Acc |
|---|---|---|---|
| GPT-4o | ~70% | ~30% | ~65% |
| Gemini-2.5 | ~72% | ~35% | ~68% |
| Anomaly-R1-7B | ~85% | ~60% | ~80% |
| Anomaly-R1-7B† (+ 领域知识) | ~88% | ~65% | ~83% |
消融实验¶
| 配置 | 检测 | 定位 | 说明 |
|---|---|---|---|
| Full (SFT+RL) | 最优 | 最优 | 完整模型 |
| SFT only | 次优 | 中等 | RL 提升定位显著 |
| Direct RL (无 SFT) | 差 | 差 | 冷启动必要 |
| w/o 一致性惩罚 | 检测好 | 定位差 | 模型学会瞎猜 Yes |
关键发现¶
- 当前最强通用 MLLM(GPT-4o、Gemini-2.5)的工业 AD 精度远未达实际标准,尤其精确定位很差
- 推理型文本比简单答案文本更有助于模型学习通用 AD 能力
- 强化学习相比纯 SFT 在定位精度上提升最为显著
- 领域知识注入进一步提升了性能
亮点与洞察¶
- 数据集的可改进性:提供原始边界框,未来可用更强 MLLM 重新生成文本,这种前瞻性设计值得借鉴
- 一致性惩罚:巧妙地将定位精度引入奖励函数,避免了"正确但不精确"的强化学习陷阱
局限与展望¶
- 文本由 Qwen2.5-VL-72B 生成,存在模型偏差
- 127K 图像虽然规模大但部分类别数据仍不均衡
- 未来可探索更多 RL 算法和更大规模模型
相关工作与启发¶
- vs MMAD: MMAD 只有选择题格式,不能训练;MMR-AD 有推理文本可训练
- vs AnomalyGPT: AnomalyGPT 直接 SFT 无推理过程,泛化性差
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个大规模推理型 AD 数据集,RL 基线有实用价值
- 实验充分度: ⭐⭐⭐⭐⭐ 多模型对比、消融、RL 技巧分析都很充分
- 写作质量: ⭐⭐⭐⭐ 数据集构建和方法描述清晰
- 价值: ⭐⭐⭐⭐⭐ 数据集对 AD 社区贡献很大
相关论文¶
- [CVPR 2026] No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection
- [CVPR 2026] Medic-AD: Towards Medical Vision-Language Model's Clinical Intelligence
- [CVPR 2026] LFPC: Learning to Focus and Precise Cropping for MLLMs
- [CVPR 2026] UniMMAD: Unified Multi-Modal and Multi-Class Anomaly Detection via MoE-Driven Feature Decompression
- [CVPR 2025] Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models