Reasoning-Driven Anomaly Detection and Localization with Image-Level Supervision¶
会议: CVPR 2026
arXiv: 2603.27179
代码: GitHub
领域: 异常检测 / 多模态大语言模型
关键词: 异常检测与定位, 推理驱动, 图像级监督, MLLM注意力, 强化学习
一句话总结¶
提出 ReAL 和 CGRO 两个模块,通过提取 MLLM 自回归推理过程中的异常相关 token 并聚合其视觉注意力来生成像素级异常图,再通过一致性引导的强化学习对齐推理与视觉证据,实现仅凭图像级监督的端到端异常检测、定位与可解释推理。
研究背景与动机¶
工业异常检测面临多重挑战: - 传统方法局限:需要大量正常样本训练产品特定模型,部署成本高,跨产品线泛化能力差 - MLLM 现有方案:多数方法仅能做图像级检测和文本推理,像素级定位仍依赖外部视觉模块(如 AnomalyGPT 用预训练视觉专家,EIAD 用 SAM),导致误差传播、推理-定位不对齐、部署复杂度增加 - 端到端方案(如 OmniAD)的问题:依赖稠密像素级标注和高质量推理标注,获取代价高且引入领域偏差
核心观察(Fig. 1):在 MLLM 生成推理文本时,仅有少量 token 的注意力聚焦于真实异常区域,且这些 token 往往与异常相关语义(如"scratch"、"mark")关联。大多数推理 token 的注意力分散或聚焦无关区域,会稀释定位精度。
方法详解¶
整体框架¶
给定图像 \(\mathbf{X}_v\) 和文本提示(固定问题:"Are there any defects or anomalies in the image?"),MLLM 生成包含推理过程和最终答案的输出序列。框架包含两个核心模块: 1. ReAL(Reasoning-Driven Anomaly Localization):从推理 token 中筛选异常相关 token,聚合其视觉注意力生成像素级异常图 2. CGRO(Consistency-Guided Reasoning Optimization):通过强化学习驱动推理-定位一致性,对齐推理 token 与视觉注意力
关键设计¶
- 异常相关推理 token 识别(ReAL 核心):从两个互补维度评估每个推理 token:
- 跨模态语义相关度 \(S_T^r\):计算推理 token 对输入文本中异常相关词("defect"/"anomaly"/"abnormal")的注意力权重之和,衡量语义上与异常概念的关联程度
- 模态内注意力集中度 \(S_I^r\):对视觉注意力图二值化后提取连通分量,计算空间熵——低熵意味着注意力聚焦于特定区域(可能是异常),高熵意味着注意力分散
通过双阈值筛选(\(\hat{S}_T^r > \tau_t\) 且 \(\hat{S}_I^r > \tau_i\))后,以复合权重 \(w_r = \alpha\hat{S}_T^r + \beta\hat{S}_I^r\) 加权聚合保留 token 的视觉注意力图 \(\mathbf{A}_{r,I}\),得到推理驱动的异常图 \(\mathbf{A}_{\text{RDAM}}\)。
- 一致性引导的推理优化(CGRO):解决 MLLM 在有限监督下推理不一致的问题(如模型回答"存在异常"但推理过程描述图像为正常)。设计类别条件一致性奖励 \(R_{\text{cons}}\):
- 对异常图像(\(y=1\)):鼓励 top-\(t\) 推理 token 的注意力区域高空间一致性(Jaccard Index \(\mathcal{J} > \delta_1\))
- 对正常图像(\(y=0\)):鼓励低空间一致性(\(\mathcal{J} < \delta_2\)),抑制在良性区域的虚假聚焦
总奖励 \(\mathcal{R}_{\text{total}} = \mathcal{R}_{\text{fmt}} + \mathcal{R}_{\text{acc}} + \mathcal{R}_{\text{cons}}\),通过 GRPO 框架优化。
- 端到端无需外部模块:整个系统仅需一个 MLLM,不依赖任何外部分割(SAM)或检测模块,真正实现端到端异常检测 + 定位 + 可解释推理。训练仅需图像级标签(正常/异常)。
损失函数 / 训练策略¶
- 基于 Qwen2.5-VL-7B,LoRA 适配语言和跨模态层,视觉编码器冻结
- 训练数据:4K 工业图像(来自 VisA、GoodsAD、Vision、PR-REAL 等),仅图像级标注
- 每批 16 样本,每输入采样 8 个候选生成(GRPO)
- 图像统一缩放至 420×420
- 零样本评估(训练集与测试集无领域重叠)
实验关键数据¶
主实验¶
四个基准平均(MVTec-AD、WFDD、SDD、DTD),图像级 AUROC/ACC:
| 方法 | 参数量 | 监督类型 | 图像级 AVG(AUROC,ACC) | 像素级 AVG(AUROC,ACC) | 推理(ROUGE-L,SBERT) |
|---|---|---|---|---|---|
| GPT-4.1 | — | — | 87.2, 88.4 | N/A | 20.8, 69.9 |
| Qwen2.5-VL+CGRO* | 7B | I | 83.9, 86.9 | 80.7, 97.1 | 27.1, 74.7 |
| Qwen2.5-VL+R1* | 7B | I | 80.0, 82.0 | 78.5, 96.7 | 26.3, 73.8 |
| AnomalyGPT | 7B | T+I+P | 71.1, 53.9 | 77.8, 98.4 | 11.9, 36.7 |
| Triad | 7B | T+I | 85.5, 83.8 | N/A | 8.6, 35.9 |
亮点:仅用图像级监督即达到与使用像素级密集标注的 AnomalyGPT 可比的定位性能。
消融实验¶
ReAL + CGRO 消融(Qwen2.5-VL-7B,四数据集平均):
| 配置 | 图像级 AUROC | 像素级 AUROC | 像素级 ACC |
|---|---|---|---|
| Vanilla | 63.4 | 64.7 | 73.0 |
| Vanilla + ReAL | 63.4 | 61.7 | 85.6 |
| Vanilla + CGRO | 83.9 | 72.7 | 92.6 |
| Full (ReAL+CGRO) | 83.9 | 80.7 | 97.1 |
token 选择策略消融(像素级): - 仅 \(S_I\): AUROC 74.1 - 仅 \(S_T\): AUROC 76.7 - \(S_T + S_I\)(完整): AUROC 80.7
关键发现¶
- ReAL 和 CGRO 具有互补作用:CGRO 提升图像级检测(+20.5 AUROC),ReAL 提升像素级定位精度(+8.0 AUROC)
- 一致性奖励消除了推理-回答矛盾:不加 CGRO 时模型常"判异常但推理说正常",注意力分散
- 从 3B 到 7B 参量模型,CGRO 增益一致(图像级 +15-20 AUROC)
- 推理质量和定位精度的提升相辅相成
亮点与洞察¶
- 核心洞察深刻:发现 MLLM 推理过程中天然存在异常感知的注意力模式,只需正确地筛选和利用(而非引入外部模块)
- 监督效率极高:仅用图像级标签(最廉价的标注)即达到像素级密集标注方法的可比性能
- 三维度统一:一个模型同时完成检测、定位、可解释推理,无需外部模块
- 一致性奖励设计精巧:通过 Jaccard Index 的类别条件约束,将推理质量和空间聚焦对齐
局限与展望¶
- 定位精度仍有提升空间(像素级 AUPR 13.3%,远低于专用分割方法)
- 推理 token 筛选依赖阈值超参数 \(\tau_t, \tau_i\),不同产品可能需要调整
- 训练数据为其他公开 AD 数据集图像,可能引入域偏差
- GRPO 训练成本较高(每输入 8 个候选生成)
- 注意力机制的解释性虽强,但对复杂多缺陷场景的表现未知
相关工作与启发¶
- 与 LISA 对比:LISA 用 [SEG] token + SAM 做推理分割,本文完全去掉外部分割模块
- GRPO/R1 范式:延续 DeepSeek-R1 的强化学习推理优化路线,但创新引入一致性奖励
- 与 OmniAD 对比:OmniAD 需要密集标注做端到端,本文仅需图像级标注
- 启发:注意力聚合策略可推广到其他需要 MLLM 空间定位的任务(如 referring segmentation、visual grounding)
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 激活 MLLM 内在推理潜能实现像素级定位的思路极具创新性,一致性奖励设计自然优雅
- 实验充分度: ⭐⭐⭐⭐⭐ — 四个基准、多种 MLLM 对比(含 GPT-4 系列)、详细消融,说服力强
- 写作质量: ⭐⭐⭐⭐ — 动机阐述清晰,但公式符号较多需要仔细跟踪
- 价值: ⭐⭐⭐⭐⭐ — 显著降低工业异常检测的标注成本,为 MLLM 在工业质检中的应用打开新路径
相关论文¶
- [ACL 2026] AttnPO: Attention-Guided Process Supervision for Efficient Reasoning
- [CVPR 2026] CCCaption: Dual-Reward Reinforcement Learning for Complete and Correct Image Captioning
- [ICLR 2026] PreferThinker: Reasoning-based Personalized Image Preference Assessment
- [ICLR 2026] Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment
- [AAAI 2026] TextShield-R1: Reinforced Reasoning for Tampered Text Detection