跳转至

Interpretable Debiasing of Vision-Language Models for Social Fairness

会议: CVPR 2026
arXiv: 2602.24014
代码: 待确认
领域: 多模态VLM
关键词: VLM去偏, 社会公平, 稀疏自编码器, 可解释性, 神经元调控

一句话总结

提出 DeBiasLens,通过在 VLM 编码器上训练稀疏自编码器(SAE)来定位编码社会属性的"社会神经元",然后在推理时选择性去激活这些神经元以缓解偏见,在 CLIP 上降低 Max Skew 9-16%,在 InternVL2 上降低性别偏差比例 40-50%,同时保持通用性能。

研究背景与动机

  1. 领域现状:VLM/LVLM 从大规模数据中继承和放大社会偏见——如 CLIP 对"CEO"检索偏向男性,InternVL 在模糊上下文中偏向特定性别。现有去偏方法包括微调、prompt tuning、剪枝等。
  2. 现有痛点:现有去偏方法只处理表面偏见症状而未触及内部表示中偏见的传播机制。剪枝虽然试图找到关键参数,但因神经元的多语义性(一个神经元同时编码偏见和有用知识),去偏往往以牺牲通用性能为代价。
  3. 核心矛盾:模型权重中的偏见和有用知识纠缠在一起,直接修改权重必然导致性能退化。
  4. 本文要解决什么? 如何在可解释的框架下精确定位和调控偏见相关的单一语义特征,而不波及有用知识。
  5. 切入角度:利用 SAE 将纠缠的特征空间分解为稀疏的、语义单一的神经元(满足 monosemanticity),使得偏见相关的"社会神经元"可以被独立定位和操控。
  6. 核心idea:SAE 把多语义特征解耦为单语义 → 筛选出编码特定社会属性的神经元 → 推理时去激活这些神经元消除偏见。

方法详解

整体框架

三阶段流程:(1) 在 VLM 编码器最后一层附加 SAE 并训练;(2) 通过激活一致性和特异性分析定位社会神经元;(3) 推理时去激活社会神经元,将重建特征与原始特征加权混合。

关键设计

  1. SAE 训练:
  2. 做什么:将编码器输出分解为高维稀疏表示
  3. 核心思路:\(\phi(\mathbf{v}) = \sigma(\mathbf{W}_{enc}^\top(\mathbf{v} - \mathbf{b}_1))\),使用 Matryoshka SAE 的多尺度重建损失,扩展因子设为8
  4. 设计动机:SAE 训练不需要社会属性标签,在人脸/描述数据集上训练即可让 SAE 自动捕捉社会属性特征
  5. 关键发现:附加 SAE 后,社会属性重叠图像对的余弦相似度与随机图像对的差异显著增大

  6. 社会神经元探测(Social Neuron Probing):

  7. 做什么:在 SAE 的稀疏表示中找到编码特定社会属性(性别/年龄/种族)的神经元
  8. 核心思路:计算每个神经元在特定群组中的有效性(非零激活比例 ≥ τ=0.9),求有效神经元集合的群组差集 \(\mathcal{N}_g = \mathcal{E}_g \setminus \bigcup_{h \neq g} \mathcal{E}_h\),选择均值激活最高的 top 神经元
  9. 设计动机:群组特异性+高一致性=编码该群组特定社会属性的单语义神经元

  10. 社会神经元调控推理:

  11. 做什么:推理时选择性去激活社会神经元,消除偏见信号
  12. 核心思路:将 SAE 中社会神经元的激活设为 \(\gamma\)(通常为0),重建特征 \(\hat{\mathbf{v}} = \psi(\mathbf{z}')\),与原始特征加权混合 \(\mathbf{v}' = \alpha\hat{\mathbf{v}} + (1-\alpha)\mathbf{v}\)\(\alpha=0.6\)
  13. 设计动机:仅修改 SAE 的稀疏表示,不触及原始模型权重,最小化对通用能力的影响

实验关键数据

主实验(CLIP ViT-B/16 性别偏见,Max Skew↓)

方法 可解释? Adj Occup Act Ster
CLIP 基线 - 21.9 33.5 19.8 32.5
Bend-VLM 10.8 10.2 9.8 9.1
SANER 8.9 14.5 7.7 -
DeBiasLens (T) 7.1 16.2 14.2 8.1
DeBiasLens (I) 14.2 21.5 20.0 18.3

LVLM 去偏效果

配置 性别偏差率降低 通用性能下降
DeBiasLens-InternVL2 (α=0.6) 40-50% 仅 4-10 分
剪枝方法 类似 更大下降
Prompt Engineering 有限 最小

关键发现

  • DeBiasLens(T) 在形容词和刻板印象类 prompt 上效果最优,无需属性标签训练
  • 去激活仅 top-1 社会神经元即可达到与去激活所有有效神经元相当的效果,证实神经元间不互相干扰
  • 性别神经元具有高特异性——去激活性别神经元不影响年龄偏见;但年龄神经元存在交叉效应(40%的年龄神经元有性别倾斜)
  • 图像编码器对高分辨率 VLM (ViT-L/14@336) 更有效,文本编码器对普通分辨率更有效

亮点与洞察

  • 可解释性驱动的去偏是全新范式:不是"黑箱式"减轻偏见输出,而是精确定位和操控偏见产生的内部机制
  • SAE 的单语义性质使其成为去偏的理想工具:每个神经元编码单一概念,去激活不产生连锁反应
  • 框架同时适用于编码器型(CLIP)和编码器-解码器型(InternVL2)VLM,通用性好
  • 仅需修改中间表示,不改模型权重,部署简单

局限性 / 可改进方向

  • 社会神经元探测阶段仍需社会属性标签来划分群组(虽然SAE训练不需要)
  • 目前主要验证了性别偏见,年龄和种族的消融较少
  • SAE 的扩展因子和阈值 τ 需要调参
  • 跨文化/跨语言的偏见缓解效果未验证

相关工作与启发

  • vs Bend-VLM: Bend-VLM 直接去偏嵌入,黑箱操作;DeBiasLens 通过可解释的神经元操控,透明可审计
  • vs SANER: SANER 在文本编码器上训练残差层擦除属性信息;DeBiasLens 通过 SAE 解耦后选择性去激活,更精准
  • vs MMNeuron: MMNeuron 在预训练权重中找属性特定神经元,但权重神经元是多语义的;SAE 神经元是单语义的,去偏更精准

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次用 SAE 做可解释的 VLM 去偏,切入点独特
  • 实验充分度: ⭐⭐⭐⭐ 多 VLM/LVLM + 多评估维度 + 神经元特异性验证
  • 写作质量: ⭐⭐⭐⭐ 方法论述清晰,"社会神经元"概念形象
  • 价值: ⭐⭐⭐⭐⭐ 为 AI 公平性提供了可解释、可审计的新工具