Interpretable Debiasing of Vision-Language Models for Social Fairness¶

会议: CVPR 2026
arXiv: 2602.24014
代码: 待确认
领域: 多模态VLM
关键词: VLM去偏, 社会公平, 稀疏自编码器, 可解释性, 神经元调控

一句话总结¶

提出 DeBiasLens，通过在 VLM 编码器上训练稀疏自编码器（SAE）来定位编码社会属性的"社会神经元"，然后在推理时选择性去激活这些神经元以缓解偏见，在 CLIP 上降低 Max Skew 9-16%，在 InternVL2 上降低性别偏差比例 40-50%，同时保持通用性能。

领域现状：VLM/LVLM 从大规模数据中继承和放大社会偏见——如 CLIP 对"CEO"检索偏向男性，InternVL 在模糊上下文中偏向特定性别。现有去偏方法包括微调、prompt tuning、剪枝等。
现有痛点：现有去偏方法只处理表面偏见症状而未触及内部表示中偏见的传播机制。剪枝虽然试图找到关键参数，但因神经元的多语义性（一个神经元同时编码偏见和有用知识），去偏往往以牺牲通用性能为代价。
核心矛盾：模型权重中的偏见和有用知识纠缠在一起，直接修改权重必然导致性能退化。
本文要解决什么？ 如何在可解释的框架下精确定位和调控偏见相关的单一语义特征，而不波及有用知识。
切入角度：利用 SAE 将纠缠的特征空间分解为稀疏的、语义单一的神经元（满足 monosemanticity），使得偏见相关的"社会神经元"可以被独立定位和操控。
核心idea：SAE 把多语义特征解耦为单语义 → 筛选出编码特定社会属性的神经元 → 推理时去激活这些神经元消除偏见。

三阶段流程：(1) 在 VLM 编码器最后一层附加 SAE 并训练；(2) 通过激活一致性和特异性分析定位社会神经元；(3) 推理时去激活社会神经元，将重建特征与原始特征加权混合。

SAE 训练:
做什么：将编码器输出分解为高维稀疏表示
核心思路：\(\phi(\mathbf{v}) = \sigma(\mathbf{W}_{enc}^\top(\mathbf{v} - \mathbf{b}_1))\)，使用 Matryoshka SAE 的多尺度重建损失，扩展因子设为8
设计动机：SAE 训练不需要社会属性标签，在人脸/描述数据集上训练即可让 SAE 自动捕捉社会属性特征
关键发现：附加 SAE 后，社会属性重叠图像对的余弦相似度与随机图像对的差异显著增大
社会神经元探测（Social Neuron Probing）:
做什么：在 SAE 的稀疏表示中找到编码特定社会属性（性别/年龄/种族）的神经元
核心思路：计算每个神经元在特定群组中的有效性（非零激活比例 ≥ τ=0.9），求有效神经元集合的群组差集 \(\mathcal{N}_g = \mathcal{E}_g \setminus \bigcup_{h \neq g} \mathcal{E}_h\)，选择均值激活最高的 top 神经元
设计动机：群组特异性+高一致性=编码该群组特定社会属性的单语义神经元
社会神经元调控推理:
做什么：推理时选择性去激活社会神经元，消除偏见信号
核心思路：将 SAE 中社会神经元的激活设为 \(\gamma\)（通常为0），重建特征 \(\hat{\mathbf{v}} = \psi(\mathbf{z}')\)，与原始特征加权混合 \(\mathbf{v}' = \alpha\hat{\mathbf{v}} + (1-\alpha)\mathbf{v}\)，\(\alpha=0.6\)
设计动机：仅修改 SAE 的稀疏表示，不触及原始模型权重，最小化对通用能力的影响

方法	可解释?	Adj	Occup	Act	Ster
CLIP 基线	-	21.9	33.5	19.8	32.5
Bend-VLM	✗	10.8	10.2	9.8	9.1
SANER	✗	8.9	14.5	7.7	-
DeBiasLens (T)	✓	7.1	16.2	14.2	8.1
DeBiasLens (I)	✓	14.2	21.5	20.0	18.3