Kaputt: A Large-Scale Dataset for Visual Defect Detection¶

会议: ICCV 2025
arXiv: 2510.05903
代码: 数据集
领域: 其他
关键词: 缺陷检测, 异常检测, 大规模数据集, 零售物流, benchmark

一句话总结¶

Kaputt 发布了一个包含 23 万+ 图像、4.8 万+ 独立商品的大规模零售物流缺陷检测数据集，规模是 MVTec-AD 的 40 倍，首次引入显著的姿态和外观变化，使得 SOTA 异常检测方法的 AUROC 不超过 56.96%，揭示了现有方法在真实零售场景中的严重不足。

研究背景与动机¶

自动化视觉缺陷检测是质量保障的关键环节。现有异常检测基准（MVTec-AD、VisA）主要面向制造业场景，特点是：物体姿态高度受控、类别有限（15 和 12 类）。在这些数据集上，SOTA 方法已达到 99.9% AUROC，趋近饱和。

然而，零售物流场景面临本质不同的挑战：

物品多样性极高：从食品到电子产品，物理属性各异

缺陷类型多变：从细微褶皱到严重破损，许多缺陷连人工检查都困难

样本极度稀缺：大多数商品只被观察几次，正常/缺陷样本都很少

姿态变化显著：商品随意放置在物流容器中，姿态不可控

已有数据集无法反映这些挑战。MVTec-AD 仅 5354 张图（1258 缺陷），VisA 仅 10821 张图。领先的异常检测方法在迁移到物流场景时表现骤降。

核心问题：如何在每个商品样本极少、正常和缺陷样本都有限、且类内变化巨大的条件下，构建可泛化的缺陷检测方法？

方法详解¶

整体框架¶

本文的核心贡献是数据集及其配套的综合评测基准，而非提出新方法。数据集设计体现了精心的工程考量：

关键设计¶

数据集结构：
- 查询集（Query）：100,267 张标注图像，包含 29,316 个缺陷实例
- 参考集（Reference）：每个商品 1-3 张未标注的"正常"参考图像（138,154 张）
- 商品数量：48,376 种独立商品，按 item ID 严格划分 train/val/test，确保无泄露
- 分辨率：12MP RGB 相机，裁剪后 2048×2048 像素
- 训练集 85%、测试集 10%、验证集 5%
多层次标注体系：
- 缺陷严重度：无缺陷 / 轻微 / 严重，三位标注者独立标注后多数投票
- 缺陷类型（7 类，可多标签）：穿透（holes/tears）、变形（dents/crushes）、启动（open box/bag）、解构、溢出、表面（dirt/scratches）、缺失单元
- 物品材质：纸板、塑料袋、硬塑料、气泡膜、纸质、书籍等
- 变形是最常见缺陷类型但多为轻微，溢出和解构多为严重
数据采集方法论：
- 硬件：12MP RGB 相机 + f/12mm 镜头，俯视拍摄，LED 面板均匀照明，减少塑料反光
- 缺陷样本收集：两阶段策略——（1）人工标记的缺陷品；（2）迭代挖掘，用已训练分类器筛选候选样本再人工标注
- 质量控制：过滤低质图像、限制每商品最多 15 张、平衡缺陷率至 28.6%、排除无正常样本的商品

损失函数 / 训练策略¶

本文不提出新方法，而是系统评测了四类基线： - 无训练无参考（零样本）：CLIP、Claude 3.5、Pixtral-12B - 无训练有参考（少样本异常检测）：PatchCore、WinCLIP - 有训练无参考（监督学习）：ResNet50、ViT-S/DINOv2、AutoGluon - 有训练有参考（混合）：PatchCore+微调骨干、AutoGluon+参考

实验关键数据¶

主实验¶

方法	类型	APany (%) ↑	APmajor (%) ↑	AUROC ↑
Random	-	31.84	14.00	50.00
CLIP	零样本	36.20	17.15	56.05
Claude-icl	零样本+上下文	36.57	24.76	56.96
PatchCore50	少样本AD	35.86	17.80	54.69
WinCLIP-few	少样本AD	34.05	19.29	52.41
ResNet50	监督	81.06	74.93	88.36
ViT-S	监督	90.67	91.45	94.27
PatchCore50-ft	混合	40.18	20.98	60.14

消融实验¶

减少缺陷训练样本时的性能退化：

配置	APany (%)	APmajor (%)	AUROC
ViT-S 完整训练集	90.67	91.45	94.27
ViT-S 1%缺陷率 (Query only)	57.7	40.5	74.4
ViT-S 1%缺陷率 (Query + ref)	40.4	14.9	63.2

关键对比：异常检测方法在不同数据集上的表现：

数据集	AUROC
MVTec-AD (SOTA)	99.9%
VisA (SOTA)	99.5%
Kaputt (最佳无监督)	56.96%

关键发现¶

异常检测方法全面失效：所有无监督/少样本方法均不超过 56.96% AUROC，几乎等同于随机
VLM 不好用：Claude/Pixtral 能描述物体但无法检测细微缺陷，与 Jiang et al. 的发现一致
参考图像反而有害：天真地融合参考图像（如特征平均）反而降低监督方法性能（96%→87% 训练集 APany）
监督方法的天花板：ViT-S 达 90.67% APany，但在可变形物品、"对抗性"设计（印有破洞图案的包装）上仍犯错
姿态变化是核心挑战：异常检测方法将正常的姿态/外观差异误判为异常

亮点与洞察¶

真正暴露了异常检测的瓶颈：不是方法不够好，而是问题性质发生了本质变化——从"受控制造"到"开放零售"
数据集设计极其严谨：按 item ID 划分避免数据泄露、三人标注多数投票、缺陷率对齐已有 benchmark
四场景评测框架：有/无训练 × 有/无参考的 2×2 矩阵提供全面视角
规模优势：48K 独立商品 + 29K 缺陷实例是同类最大

局限与展望¶

仅有俯视角度单一视角，未利用多视角信息
参考图像质量不保证（<1% 参考图本身有缺陷），可能引入噪声
标注仍有错误（如遮挡导致不可观察、设计图案与缺陷易混淆）
未提供像素级分割标注，无法评估缺陷定位精度
所有实验基于 RGB 图像，未探索深度/红外等模态

评分¶

新颖性: ⭐⭐⭐⭐ 数据集驱动的贡献, 问题定义准确, 但无方法创新
实验充分度: ⭐⭐⭐⭐⭐ 四种场景 × 多种方法 + 训练集缩减实验 + 详尽误差分析
写作质量: ⭐⭐⭐⭐ 结构清晰, 数据集文档完善
价值: ⭐⭐⭐⭐⭐ 填补了零售物流缺陷检测的基准空白, 将推动社区进步