Commonality in Few: Few-Shot Multimodal Anomaly Detection via Hypergraph-Enhanced Memory¶
会议: AAAI2026
arXiv: 2511.05966
代码: Sunny5250/CIF
领域: graph_learning
关键词: hypergraph learning, few-shot anomaly detection, multimodal industrial anomaly detection, memory bank, training-free message passing
一句话总结¶
提出 CIF,利用超图(hypergraph)提取少量训练样本的类内结构共性,指导 memory bank 的构建与搜索,在少样本多模态工业异常检测中取得 SOTA。
背景与动机¶
工业异常检测是保障产品质量的关键技术。现有方法大多需要大量正常样本来构建特征分布,但实际工场景中正常样本往往非常有限。少样本(few-shot)异常检测因此被提出,核心挑战在于:少量训练样本难以覆盖测试样本中的多样正常模式,导致 memory bank 覆盖率不足、假阳性率高。
现有方法如 PatchCore 直接用 patch 特征的最近邻搜索检测异常;GraphCore 用 GNN 聚合邻域信息提取视觉等度不变特征。然而普通图只能建模二元关系,难以捕捉多个 patch 之间的高阶关联。作者观察到,单语义工业图像的同类样本具有高度一致的结构模式,超图能更好地建模这种高阶结构共性,从而在少样本设置下增强 memory bank 的覆盖率。
核心问题¶
- 少样本设置下 memory bank 特征稀疏,无法充分覆盖测试样本的正常模式
- 测试特征与 memory bank 特征之间存在分布差距
- 直接最近邻搜索匹配缺乏结构信息引导,假阳性率高
方法详解¶
CIF(Commonality In Few)是一个基于超图的少样本无监督多模态工业异常检测框架,包含四个核心模块:
1. 语义感知超图构建(SAHC)¶
传统硬聚类(K-Means)无法将节点分配到多个超边,而模糊聚类(Fuzzy C-Means)在单语义工业图像上会导致超边分布不均。SAHC 的做法:
- 用预训练特征提取器获取 patch 特征 \(X = [x_1, x_2, \ldots, x_N]\),每个 patch 视为节点
- 利用 3D 点云提取前景 mask,过滤出前景节点 \(V_{\text{fore}}\)
- 对前景节点做 K-Means 聚类得到 \(|\mathcal{E}|\) 个聚类中心作为超边中心
- 计算所有前景节点与超边中心的余弦相似度,经 min-max 归一化后用阈值决定节点归属
- 生成关联矩阵 \(\mathbf{H} \in \mathbb{R}^{|V| \times |\mathcal{E}|}\)(软分配)和硬关联矩阵 \(\mathbf{H}_{\text{hard}}\)(每个节点仅归属相似度最高的超边)
关键设计:统一使用 RGB 图像特征构建的超图来支持 2D 和 3D 两个模态,因为 3D 点云特征构建的超图存在严重不平衡问题。
2. 结构引导的 Memory 采样(SGMS)¶
利用类内结构共性指导 memory bank 的构建与压缩:
- 节点分配:计算新训练样本的超边特征与 memory bank 超边特征的距离,将新样本每个超边的节点合并到最相似的 memory bank 超边中
- 超边更新:合并后重新计算超边特征
- Memory 采样:在每个超边内部独立进行贪婪核心集采样(而非全局采样),确保每个结构区域都有代表性特征。若某超边采样后节点不足一个,保留到所有其他节点最大距离最小的那个节点
3. 双向无训练超图消息传递(Bi-TF-MP)¶
为缩小测试特征与 memory bank 特征的分布差距:
- 构建联合超图:将测试样本超图、memory bank 超图和跨域超边拼接
- 跨域超边构建:对测试节点找 top-k 最相似的 memory 节点,反之亦然
- 联合关联矩阵:\(\mathbf{H}^{joint} = [\widetilde{\mathbf{H}}^{test} | \widetilde{\mathbf{H}}^{mem} | \mathbf{H}^{cross}]\)
- 采用 TF-MP 的无训练消息传递核 \(\mathbf{S}\),通过 \(L\) 层传递让节点与 \(L\)-hop 邻居交换信息
- 保留系数 \(\alpha = 0.9\) 保证节点自身信息主导,仅做轻微分布对齐
4. 超边引导的 Memory 搜索(HGMS)¶
两阶段搜索减少假阳性:
- 第一阶段(结构匹配):计算测试样本更新后的超边特征与 memory bank 超边特征的余弦相似度,为每个测试超边选取 top-k 最相似的 memory 超边
- 第二阶段(patch 匹配):在匹配的超边子集内做 patch 级最近邻搜索,得到异常分数 \(\mathcal{A}_{ij} = \min_{m \in \mathcal{M}_{sub\,i}} \|X^{test}_{ij} - m\|_2\)
- 同时保留传统全局 patch 级搜索的分数,两者逐元素相乘得到最终异常分数
特征提取器:2D 用 DINO,3D 用 PointMAE,均为预训练模型,无需微调。
实验关键数据¶
在 MVTec 3D-AD 和 Eyecandies 两个多模态数据集上评估:
MVTec 3D-AD(I-AUROC / AUPRO):
| 设置 | CIF(无训练) | 最佳训练方法 | Patchcore+FPFH(无训练) |
|---|---|---|---|
| 1-shot | 72.0 / 86.1 | M3DM 73.9 / CFM 91.4 | 59.9 / 88.3 |
| 2-shot | 73.2 / 87.2 | M3DM 76.5 / CFM 92.5 | 61.4 / 88.6 |
| 4-shot | 77.6 / 89.6 | CFM 80.1 / CFM 94.0 | 64.3 / 90.4 |
- 无训练方法中全面 SOTA,I-AUROC 超过 Patchcore+FPFH 约 12-20%
- 与训练方法差距较小(1-shot 仅差 2.6%),且无需任何训练
Eyecandies(I-AUROC):1-shot 69.5,2-shot 73.6,4-shot 75.1,均超过训练方法 M3DM 和 CFM
消融实验(MVTec 3D-AD,1-shot):
| 模块 | I-AUROC | AUPRO |
|---|---|---|
| 无任何模块 | 68.6 | 76.1 |
| +SGMS | 71.2 | 85.0 |
| +SGMS+HGMS | 71.7 | 86.0 |
| +SGMS+HGMS+Bi-TF-MP(完整) | 72.0 | 86.1 |
SGMS 贡献最大(I-AUROC +3.8%,AUPRO +11.7%),说明结构引导采样非常有效。
亮点¶
- 超图用于工业异常检测的首次探索:超图能捕捉 patch 间高阶关联,比普通图更适合建模单语义工业图像的结构共性
- 完全无训练:不需要微调或训练任何参数,只用预训练特征和超图消息传递
- 结构先验贯穿全流程:从 memory bank 构建、特征对齐到搜索匹配,超图结构信息被一致性地利用
- 少样本优势明显:1-shot 相比基线提升最大,说明结构信息对稀疏数据最有价值
局限性 / 可改进方向¶
- 异常定位能力有限:在两个数据集上 AUPRO 均未达到最优,作者也承认 localization 是短板
- 超参数敏感:超边数量需按数据集手动设置(MVTec 3D-AD 用 4,Eyecandies 用 8),缺乏自适应机制
- 依赖 3D 点云做前景分割:限制了方法在纯 2D 场景的适用性
- 训练方法差距:与 CFM 等训练方法相比仍有一定差距,尤其在定位指标上
- 可拓展到更大规模数据集:目前仅在中小规模数据集上验证
与相关工作的对比¶
| 方法 | 类型 | 结构建模 | 训练需求 | 1-shot I-AUROC |
|---|---|---|---|---|
| PatchCore+FPFH | 无训练 | 无 | 无 | 59.9 |
| GraphCore | 训练 | 普通图(二元关系) | GNN 训练 | — |
| M3DM | 训练 | 无 | 需训练 | 73.9 |
| CFM | 训练 | 无 | 需训练 | 67.5 |
| CIF | 无训练 | 超图(高阶关系) | 无 | 72.0 |
相比 GraphCore,CIF 用超图替代普通图来捕捉高阶关联;相比 M3DM/CFM 等训练方法,CIF 无需训练即可接近其性能。
启发与关联¶
- 超图在结构化数据建模中的优势可迁移到其他需要捕捉高阶关系的视觉任务
- 无训练消息传递是一种轻量级特征对齐思路,可用于其他 few-shot 场景
- 结构引导的采样策略(超边内独立采样)比全局采样更能保持代表性,该思路可推广到其他 memory bank 方法
- 将结构先验融入搜索阶段(两阶段搜索)的思路对减少假阳性有普遍意义
评分¶
- 新颖性: 8/10 — 首次将超图引入少样本工业异常检测,整体框架设计巧妙
- 实验充分度: 7/10 — 两个数据集、详细消融,但缺少更多数据集和单模态实验
- 写作质量: 8/10 — 结构清晰,图表说明到位
- 价值: 7/10 — 无训练方法达到接近训练方法的性能,但定位指标仍有提升空间