ConceptScope: Characterizing Dataset Bias via Disentangled Visual Concepts¶

会议: NeurIPS 2025 arXiv: 2510.26186 代码: GitHub 领域: model_compression 关键词: 数据集偏差, 稀疏自编码器, 视觉概念, 偏差检测, 可解释性

一句话总结¶

提出 ConceptScope 框架，利用在视觉基础模型表征上训练的稀疏自编码器（SAE）自动发现和量化数据集中的视觉概念偏差，无需人工标注即可将概念分类为 target / context / bias 三类。

研究背景与动机¶

机器学习数据集中的偏差（如特定类别与特定背景的高度相关性）普遍存在，会导致模型泛化能力下降。例如 ImageNet 中约 75%% 的"棱皮海龟"图像拍摄于沙滩，仅 15%% 在水下。现有方法要么依赖昂贵的人工标注，要么依赖 VLM 生成的描述文本，但自然语言描述存在粒度不一致、同义替换等问题，难以结构化提取视觉概念。本文旨在构建一个全自动、可扩展的数据集偏差分析框架。

方法详解¶

整体框架¶

ConceptScope 分为两个阶段： 1. 概念字典构建：在预训练视觉编码器（CLIP-ViT-L/14）的中间层 token embedding 上训练 SAE，将稠密表征解耦为稀疏的可解释概念 2. 概念分类：基于语义相关性和统计频率，将每个概念归类为 target（目标）、context（上下文）或 bias（偏差）

关键设计¶

稀疏自编码器（SAE）训练：给定图像 \(x\)，提取 patch-level token embedding \(\mathbf{z} = \{z_1, \ldots, z_l\}\)，SAE 编码-解码过程为：

\[f(z) = \phi(W_{\text{enc}}^T z), \quad \text{SAE}(z) = W_{\text{dec}}^T f(z)\]

其中 \(\phi\) 为 ReLU 激活函数，\(W_{\text{enc}} \in \mathbb{R}^{d \times d'}\)，\(d'\) 远大于 \(d\)（扩展因子 16 或 32）。

概念分类——Alignment Score：定义 necessity \(N(c,y)\) 和 sufficiency \(S(c,y)\) 两个指标，分别衡量移除概念 \(c\) 后预测置信度的下降和仅保留 \(c\) 时的预测能力：

\[N(c,y) = \frac{1}{|X_y|}\sum_{x \in X_y} \frac{P(y|x)}{P(y|x \odot (1-m_c(x)))}\]

\[S(c,y) = \frac{1}{|X_y|}\sum_{x \in X_y} \frac{P(y|x \odot m_c(x))}{P(y|x)}\]

两者取平均得到 alignment score \(A(c,y) = \frac{N(c,y) + S(c,y)}{2}\)。当 \(A(c,y) \geq \mu_y^{\text{align}} + \alpha \times \sigma_y^{\text{align}}\) 时判定为 target 概念，否则为 context 概念。

偏差概念识别：在排除 target 概念后，计算 context 概念的 concept strength \(\tilde{f}_{c,y} = \text{avg}_{\mathbf{z} \in Z_y}(f(\mathbf{z})_c)\)。当 \(\tilde{f}_{c,y} \geq \mu^{c.s.} + \sigma^{c.s.}\) 时判定为 bias 概念。

损失函数¶

SAE 训练损失为重建损失加 L1 稀疏惩罚：

\[\mathcal{L} = \|z - \text{SAE}(z)\|_2^2 + \lambda \|z\|_1\]

实验关键数据¶

主实验¶

概念预测性能（6 个标注数据集上的二分类精度，F1 / AUPRC）：

方法	Caltech101	DTD	Waterbird	CelebA	RAF-DB	Stanford40	平均
BLIP-2	0.64	0.38	0.37	0.27	0.24	0.66	0.43
LLaVA-NeXT	0.61	0.40	0.57	0.62	0.45	0.80	0.58
ConceptScope	0.83	0.57	0.78	0.81	0.55	0.78	0.72

偏差发现任务（Precision@10）：

方法	Waterbirds	CelebA	NICO++(75)	NICO++(90)	NICO++(95)
DOMINO	90.0%%	87.0%%	24.0%%	24.0%%	24.0%%
FACTS	100.0%%	100.0%%	55.0%%	60.8%%	61.0%%
ConceptScope	100.0%%	100.0%%	72.9%%	73.1%%	74.0%%

消融实验¶

SAE 空间归因的分割精度：ADE20K 上 AUPRC 达 0.399，显著优于 BLIP-2（0.098）和 LLaVA-NeXT（0.302）
SAE 激活值与 CLIP 相似度之间 Pearson 相关系数 \(r = 0.71\)，Spearman \(\rho = 0.65\)
四个随机种子训练的 SAE 标准差低于 0.01，表明框架稳健

关键发现¶

在 ImageNet-1K 中发现了此前未标注的偏差：如"项链"频繁出现在"人体模型"类别中，"新郎"类别与东亚文化场景高度相关
每个类别平均检测到 2.45 个偏差概念
模型鲁棒性诊断实验表明：high-target + high-bias 组准确率最高，low-target + low-bias 组最低，34 个模型中该趋势一致

亮点与洞察¶

全自动无监督：无需人工标注即可发现数据集偏差，一旦 SAE 训练完成可迁移到其他数据集
概念三分类设计（target/context/bias）既有理论基础又有实用价值
在 NICO++ 上偏差发现的 Precision@10 比此前 SOTA（ViG-Bias）提升约 10 个百分点
可扩展到多标签场景（MS-COCO）

局限性¶

概念受限于 CLIP 表征的知识范围，领域特异数据集（医学影像等）需重新训练 SAE
分割掩码为 patch 级（16x16），定位精度有限
在领域特异型属性（如情绪、纹理）上表现弱于通用属性

评分¶

⭐ 新颖性: 4/5 — SAE 用于视觉数据集偏差分析是首次系统性探索
⭐ 实验充分度: 5/5 — 6 个属性数据集 + 3 个偏差基准 + 多个真实数据集 + 34 个模型鲁棒性分析
⭐ 写作质量: 4/5 — 结构清晰，概念定义严谨
⭐ 价值: 4/5 — 为数据集审计和模型诊断提供了实用工具