跳转至

UniMMAD: Unified Multi-Modal and Multi-Class Anomaly Detection via MoE-Driven Feature Decompression

会议: CVPR2026
arXiv: 2509.25934
代码: yuanzhao-CVLAB/UniMMAD
领域: 多模态VLM
关键词: 异常检测, 多模态融合, Mixture-of-Experts, 特征解压缩, 统一框架, 多类别异常检测

一句话总结

提出 UniMMAD,首个用单一参数集同时处理多模态、多类别异常检测的统一框架,核心是基于 MoE 的特征解压缩机制,将通用多模态编码特征自适应分解为领域特定的单模态重建,在 9 个数据集(3 个领域、12 种模态、66 个类别)上达到 SOTA。

研究背景与动机

  1. 现有方法碎片化严重:当前异常检测方法将模态和类别视为独立因素,不同模态组合需要单独训练专用模型,导致模型部署困难和显存开销巨大。
  2. 多类别方法的共享解码器瓶颈:UniAD、MambaAD 等多类别方法使用共享解码路径,但面对跨域大变异时(外观、光照、尺度、背景等差异),正常性边界被扭曲,产生严重的领域干扰和高误报率。
  3. 工业场景需要多传感器协同:实际产品质量检测中,不同产品需要不同的传感器组合(红外相机检测内部损伤、RGB+3D 检测颜色和几何缺陷),为每种组合定制模型不切实际。
  4. 统一视觉模型浪潮的启示:SegGPT、Spider 等模型展示了单一架构处理多任务的可能性,启发了将该范式迁移到异常检测领域的尝试。
  5. 领域异质性挑战:多模态多类别场景中,外观、光照、尺度和异常语义差异极大,一致的表征学习和异常判别非常困难。
  6. 效率与持续学习需求:实用的统一 AD 模型需要高精度、快推理、稀疏计算,以及不发生灾难性遗忘地适应新类别/模态的能力。

方法详解

整体框架:"General → Specific" 范式

UniMMAD 的核心思想是将多模态特征解压缩为多个单模态特征:\(f^{\text{gen}} \rightarrow \{u^m\}_{m=1}^M\)。模型在正常样本上学习预测 \(f^{\text{gen}}\) 与每个 \(u^m\) 之间的残差。推理时,异常区域的解压缩会失败,偏差即为异常指标。这种非对称设计天然避免了捷径重建问题。

通用多模态编码器

  • 输入嵌入层:将任意模态输入填充到统一通道维度 \(C\),支持任意模态组合
  • 残差块:三个残差块逐步提取多模态特征,结合模态间先验平均值进行特征精炼
  • 特征压缩模块(FCM):采用分层瓶颈结构,内部多尺度瓶颈使用并行 \(1\times1\)\(3\times3\)\(5\times5\) 卷积保留正常模式同时抑制尺度敏感的异常;外部瓶颈在更高语义层级做更细粒度的压缩,输出纯净的通用特征 \(f_1^{\text{gen}}, f_2^{\text{gen}}, f_3^{\text{gen}}\)

Cross Mixture-of-Experts (C-MoE)

条件路由器(Condition Router): - 通用特征投影为 key/value,领域先验投影为 query - 卷积 + 全局平均池化得到全局统计量 \(g_l^m\),封装领域特定上下文并抑制异常泄漏 - 门控函数产生 top-K 专家索引和分数,附带退火式负载均衡损失 \(\mathcal{L}_{\text{MoE}}\) 鼓励早期广泛激活、后期稳定路由

专家设计与路由: - 固定专家:捕获共享知识,减少冗余 - 路由专家:通过 top-K 门控选择,提供任务特定能力 - MoE-in-MoE 结构:每个路由专家(MoE-Leader)是共享基础专家 \(W \in \mathbb{R}^{N_{\text{exp}} \times O \times I \times K_s \times K_s}\) 的加权组合,MoE-Leader 仅存储权重 \(S \in \mathbb{R}^{N_{\text{exp}} \times O}\)参数量减少约 75% - 分组动态滤波:将值张量复制并重塑,设置 groups = \(K_{\text{route}}+1\),通过单次分组卷积并行执行所有专家滤波,大幅降低延迟

损失函数

  • 解压缩一致性损失 \(\mathcal{L}_{\text{DeC}}\):基于负余弦相似度度量解压缩特征与原始单模态特征的偏差,引入 focal loss 调制因子 \(\gamma=2\) 增强对少数类的关注
  • 总损失\(\mathcal{L} = \mathcal{L}_{\text{DeC}} + \mathcal{L}_{\text{MoE}}\),端到端优化

实验

主要结果

在 9 个数据集上全面评估,涵盖工业(MVTec-3D, Eyecandies, MulSen-AD)、医学(BraTs, UniMed)和传统工业(MVTec-AD, VisA)场景:

数据集 指标 最强专用模型 UniMMAD 对比
MVTec-3D AUC_I / AUC_P 92.4 / 98.9 (CFM) 92.5 / 99.1 超越专用模型
Eyecandies AUC_I / AUC_P 81.8 / 95.8 (CFM) 85.6 / 96.9 AUC_I +3.7%
MulSen-AD AUC_I / AUC_P 78.9 / 97.8 (TripleAD) 85.5 / 97.9 AUC_I +6.6%
BraTs AUC_I / AUC_P 91.8 / 95.7 (PatchCore+MMRD) 95.8 / 97.5 AUC_I +4.0%
UniMed AUC_I / AUC_P 96.1 / 92.7 (INP-Former) 96.3 / 92.0 基本持平
MVTec-AD AUC_I / AUC_P 99.2 / 98.2 (INP-Former) 99.4 / 98.1 AUC_I +0.2%
VisA MF1_P 44.4 (INP-Former) 47.2 +2.8%(复杂多实例场景)

消融实验

组件 Mean AUC_I Mean AUC_P Mean MF1_P
Baseline 75.6 86.6 28.5
+ FCM 77.4 86.7 28.9
+ General→Specific 84.3 96.1 37.1
+ C-MoE (完整) 91.1 96.7 42.9
w/o Cross-condition 85.1 95.7 37.9
w/o Routed Experts 85.4 96.0 37.8
w/o Fixed Expert 89.4 96.5 41.5
w/o Multi-scale Exp. 88.9 96.4 41.2

关键发现

  • General→Specific 范式贡献最大:引入后 AUC_I 提升 8.9%、AUC_P 提升 10.9%,证明了非对称解压缩的有效性
  • C-MoE 进一步带来 8.1% 的 AUC_I 平均提升,cross-condition 路由和 routed experts 是最核心的设计
  • 持续学习能力出色:仅微调不到 10% 参数(MoE-leader、条件路由器、聚合卷积),新任务性能接近联合训练,旧任务退化 < 8%
  • 相比通才模型(AdaCLIP、MVFA、AA-CLIP)优势明显:在各数据集上全面领先,尤其在多模态场景中差距巨大

亮点

  • 首个统一多模态多类别异常检测框架:单一参数集覆盖 3 个领域、12 种模态、66 个类别,实用性极强
  • MoE-in-MoE 参数效率设计精巧:路由专家仅存储 \(N_{\text{exp}} \times O\) 组合权重,参数减少 75%,同时保持稀疏激活和快速推理
  • 分组动态滤波加速推理:通过张量重塑和分组卷积将多个专家的滤波合并为单次操作,工程实现高效
  • 退火式负载均衡损失\((1-e/E)^2\) 衰减系数实现"先探索后稳定"的路由策略,比固定权重更优雅
  • 实验极为充分:9 个数据集、详尽的消融、持续学习实验、定性分析,覆盖面在 AD 领域罕见

局限性

  • 先验生成器依赖 WideResNet50 预训练模型,在非自然图像域(如工业 X 光、某些医学模态)的先验质量可能受限
  • 持续学习仍需 1% 旧数据混入,不是完全无回放的方案
  • 输入固定 resize 到 256×256,对需要高分辨率定位的微小缺陷可能造成信息损失
  • MoE-Leader 数量(32 个)和 base expert 数量(8 个)在更大规模场景下的扩展性未充分验证
  • 像素级 MF1_P 指标整体偏低(40-50%),说明精细分割能力仍有较大提升空间

相关工作

  • 多模态异常检测:M3DM (CVPR2023) 用 patch 对比学习融合 RGB+点云;CFM (CVPR2024) 提出轻量跨模态映射;MMRD 引入法线模态做逆蒸馏 → UniMMAD 用统一编码器替代参数无关融合
  • 多类别异常检测:UniAD (NeurIPS2022) 开创共享模型多类别范式;ViTAD/MambaAD 改进骨干网络;INP-Former (CVPR2025) 达到最强单模态多类别性能 → UniMMAD 通过 MoE 解决共享解码器的域干扰问题
  • MoE 在视觉中的应用:V-MoE 将 MoE 嵌入 ViT;DeepSeekMoE 强调参数效率 → UniMMAD 的 Cross-condition 路由和 MoE-in-MoE 是针对 AD 异质性的新设计

评分

  • 新颖性: ⭐⭐⭐⭐⭐ (首个统一多模态多类别 AD 框架,General→Specific 范式和 C-MoE 均为新颖设计)
  • 实验充分度: ⭐⭐⭐⭐⭐ (9 数据集、3 领域、12 模态、66 类、完整消融+持续学习)
  • 写作质量: ⭐⭐⭐⭐ (结构清晰,图表丰富,但公式较密集)
  • 价值: ⭐⭐⭐⭐⭐ (统一框架思路对工业 AD 部署有直接实用价值,MoE 设计可迁移)