Classifier-to-Bias: Toward Unsupervised Automatic Bias Detection for Visual Classifiers¶

会议: CVPR 2025
arXiv: 2504.20902
代码: https://github.com/mardgui/C2B
领域: AI安全 / 公平性
关键词: 偏差检测, 无监督, LLM, 检索增强, 模型公平性

一句话总结¶

提出 C2B（Classifier-to-Bias），首个仅依靠分类任务的文本描述（无需任何标注数据）即可自动发现预训练视觉分类器偏差的框架，通过 LLM 生成类特定偏差候选、生成检索标题收集图像数据集、最后计算偏差分数，在 CelebA 和 ImageNet-X 上超越需要监督的 SOTA 偏差检测方法。

研究背景与动机¶

领域现状：预训练模型在 HuggingFace 等平台广泛共享，用户下载使用时可能不了解模型的偏差和失败模式。现有偏差检测方法（如 B2T、UDIS）依赖标注数据来发现模型偏差。

现有痛点：所有现有方法都需要任务特定的标注数据（至少需要分类标签），大大限制了偏差检测的适用范围。普通用户可能没有资源收集标注数据。

核心矛盾：偏差检测本应是模型部署前的必要步骤，但标注数据依赖使其成本高昂，形成了"检测偏差需要数据，但获取数据本身就是瓶颈"的矛盾。

本文目标：在零标注数据条件下，仅用分类任务的文本描述自动识别模型偏差。

切入角度：LLM 具备对不同分类任务可能存在何种偏差的推理能力，而大规模图像数据库+文本检索可以提供无标注的测试数据。

核心 idea：用 LLM 提出偏差候选 → 生成检索标题 → 从大规模库中检索图像 → 测试模型在不同偏差类下的表现差异。

方法详解¶

整体框架¶

C2B 三步流程：(1) 用 LLM 为每个类别生成类特定的偏差属性和偏差类列表；(2) 用 LLM 生成描述「目标类+偏差类」组合的标题，通过 CLIP 检索或 Bing 搜索收集对应图像；(3) 在收集的伪标注数据集上测试目标模型，比较不同偏差类间的准确率差异来量化偏差。

关键设计¶

类特定偏差候选生成:
- 功能：为每个目标类自动生成可能的偏差属性及其取值
- 核心思路：将任务描述 \(T\) 和类名 \(y\) 拼接后输入 LLM（Llama 3.1 8B），让 LLM 输出该类的偏差属性列表 \(\mathcal{B}^y\)。例如对鸟类分类，可能输出"背景"（森林/天空/水面）、"姿态"（飞行/站立）等。不同类有不同偏差列表，因为不同物体的偏差因素不同。
- 设计动机：偏差具有任务和类特定性，统一的偏差列表无法覆盖所有场景。LLM 的世界知识恰好适合推理"什么因素可能影响分类"。
检索增强的数据收集:
- 功能：为每个目标类-偏差类组合收集测试图像
- 核心思路：两步标题生成——先让 LLM 生成任务适配的标题模板，再为每个具体的目标类和偏差类细化标题。用生成的标题通过 CLIP 从 CC12M 大规模数据库检索 top-k 图像，或通过 Bing 搜索引擎获取。每个标题检索 20 张图像，标题本身提供了伪标注的目标标签和偏差标签。
- 设计动机：避免收集和标注数据，利用已有的大规模无标注图像库。通过精心构造的标题确保检索图像同时匹配目标类和偏差类。
偏差分数计算:
- 功能：量化模型在各偏差类上的表现差异
- 核心思路：对每个目标类 \(y\) 和偏差类 \(b_{i,j}\)，计算模型在该子集上的准确率 \(A_y(f, b_{i,j})\)，偏差分数为该准确率与其他偏差类平均准确率之差：\(\phi_{y,i,j} = A_y(f, b_{i,j}) - \frac{1}{n_i-1}\sum_{k \neq j} A_y(f, b_{i,k})\)。分数为正表示模型偏向该偏差类，为负表示偏见。
- 设计动机：通过相对比较消除基线准确率的影响，直接度量分类器在不同偏差类间的表现差异。

损失函数 / 训练策略¶

C2B 完全无训练，是一个推理时框架。只需要一个 LLM 和一个检索引擎即可运行。

实验关键数据¶

主实验¶

方法	CelebA Hit↑	CelebA FH↓	CelebA Miss↓
B2T (监督)	较低	-	较高
C2B-cc12m (无监督)	较高	较低	较低
C2B-Bing (无监督)	最高	最低	最低

C2B 在完全无监督条件下超越了需要标注数据的 B2T

消融实验¶

配置	Hit Rate	说明
CC12M 检索	基础	CLIP 嵌入检索
Bing 搜索	+提升	网络搜索覆盖更广
多标题变体	+提升	增加标题多样性

关键发现¶

C2B 能发现数据集标注之外的新偏差（如 CelebA 中"年龄"偏差未在原始 40 个属性中标注）
Bing 搜索比 CC12M 检索效果更好，因为网络覆盖的领域更广
检索图像的准确性（是否匹配标题描述）是 C2B 性能的关键瓶颈
类特定偏差列表比全局统一列表更有效

亮点与洞察¶

零标注偏差检测的新范式：从"先收集数据再检测偏差"转变为"先推理可能的偏差再按需收集数据"，大幅降低了偏差检测的门槛
LLM 作为偏差假设生成器：利用 LLM 的世界知识替代领域专家，实现偏差假设的自动化
模块化设计：LLM、检索引擎和目标模型完全解耦，可随技术进步无缝升级各组件

局限与展望¶

依赖检索图像质量，错误检索的图像会引入偏差分数的噪声
LLM 可能遗漏某些偏差（如 LLM 未考虑到的文化特定因素）
目前仅在分类任务上验证，检测/分割等任务的偏差检测需要扩展
Bing 搜索的商业 API 增加了使用成本

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次实现零标注偏差检测，问题定义有价值
实验充分度: ⭐⭐⭐⭐ CelebA 和 ImageNet-X 两个数据集，含多种评估协议
写作质量: ⭐⭐⭐⭐ 问题动机清晰，方法描述系统
价值: ⭐⭐⭐⭐⭐ 极具实用价值，降低了公平性审计的门槛