跳转至

FairImagen: Post-Processing for Bias Mitigation in Text-to-Image Models

会议: NeurIPS 2025 arXiv: 2510.21363 代码: fuzihaofzh/FairImagen 领域: image_generation 关键词: 公平性, 偏见缓解, Stable Diffusion, FairPCA, 文本到图像

一句话总结

提出 FairImagen 后处理去偏框架,通过在 CLIP prompt 嵌入空间应用 FairPCA 投影去除人口统计信息,结合经验噪声注入和跨人口统计联合去偏,在不重训模型的前提下显著提升文本到图像生成的公平性。

背景与动机

Stable Diffusion 等文本到图像模型在生成过程中会复制甚至放大社会偏见——例如"CEO"倾向生成白人男性,"nurse"生成女性。现有去偏方法分三类: - Prompt 方法:每张图都需手动改写,费力且不通用 - 微调方法:需要访问模型内部参数,计算成本高 - 后处理方法(SDID、TBIE等):轻量但现有方案存在语义漂移、方向粗糙、多属性泛化差等问题

作者聚焦后处理方向,旨在提供一种简单、可扩展、模型无关的公平性解决方案。

核心问题

  1. 如何在 prompt 嵌入空间中精确去除人口统计信息而保留语义内容?
  2. 去偏后输出过于"中性化"怎么办?
  3. 如何同时处理多个受保护属性(性别+种族)而避免过度修剪?

方法详解

模块 1:Prompt 嵌入提取

对 prompt \(p\) 使用 CLIP 编码器提取 token 级嵌入 \(E_p \in \mathbb{R}^{T \times D}\) 和池化嵌入 \(\bar{E}_p \in \mathbb{R}^D\)。按受保护属性分组构建嵌入矩阵 \(X\) 和分组指示矩阵 \(Z\)

模块 2:Fair Representation 变换(FairPCA)

经典 PCA 优化:

\[\arg\min_{P \in \mathbb{R}^{D \times d}: P^T P = I} \sum_{i=1}^{n} \|\mathbf{x}_i - PP^T \mathbf{x}_i\|_2^2\]

FairPCA 加入公平正则项:

\[\min_{P^T P = I} -\text{Tr}(P^T \Sigma_X P) + \lambda \|BP\|_F^2\]

其中 \(B = Z^T X \in \mathbb{R}^{G \times D}\) 为分组特征矩阵,\(\lambda\) 控制重建质量和公平性的权衡。约束 \(P\)\(\mathcal{N}(B)\) 中确保投影后的表示与任何区分不同群体的方向正交。

推理时对嵌入进行投影:\(\bar{E}_p' = PP^T \bar{E}_p\)\(E_p' = E_p PP^T\)

模块 3:经验噪声注入

防止输出过度中性化。计算每个群体 \(g\) 的偏差方向:

\[\nu_g = \frac{1}{|X^{(g)}|} \sum_{\bar{E}_p \in X^{(g)}} \bar{E}_p - \bar{E}\]

构建经验分布 \(\mathcal{D}_g = \{\nu_g^T \bar{E}_p : \bar{E}_p \in X^{(g)}\}\),采样 \(\delta \sim \mathcal{D}_g\) 施加扰动:

\[\bar{E}_p'' = \bar{E}_p' + \epsilon \cdot \delta \cdot \nu_g\]

\(\epsilon\) 为可调噪声缩放参数。

模块 4:跨人口统计联合去偏

不同于对各属性逐一投影(导致过度修剪),构建联合属性空间的笛卡尔积。如性别 \(\{M, F\}\) × 种族 \(\{W, A, B\}\) = 6 个复合群体,在此联合空间上一次性应用 FairPCA。

实验关键数据

性别去偏

方法 Fairness↑ Accuracy↑ MUSIQ↑ Avg↑
Base(Stable Diffusion) 0.167 0.785 0.574 0.509
SDID 0.507 0.776 0.553 0.612
CDA 0.547 0.772 0.549 0.623
FairImagen 0.560 0.771 0.541 0.624
FairPrompt (上界) 0.732 0.766 0.586 0.695

种族去偏

方法 Fairness↑ Accuracy↑ MUSIQ↑ Avg↑
Base 0.193 0.785 0.574 0.517
SDID 0.370 0.770 0.537 0.559
TBIE 0.366 0.762 0.532 0.553
FairImagen 0.389 0.760 0.536 0.562
FairPrompt (上界) 0.444 0.752 0.566 0.587

性别+种族联合去偏

方法 Gender Fair↑ Race Fair↑ Accuracy↑ MUSIQ↑ Avg↑
Base 0.163 0.193 0.785 0.574 0.508
TBIE 0.400 0.286 0.776 0.546 0.574
FairImagen 0.537 0.320 0.753 0.544 0.611
FairPrompt (上界) 0.690 0.478 0.747 0.574 0.671

关键消融发现: - 隐藏维度减小 → 公平性提升但 Accuracy/MUSIQ 下降 - 噪声参数 e-noise 增大 → 公平性提升,尤其在联合去偏中效果显著

亮点

  • ⭐ FairPCA 的公平-语义权衡有明确数学形式,\(\lambda\) 提供精确控制旋钮
  • ⭐ 跨人口统计联合去偏方法(笛卡尔积构造)避免了逐属性投影的过度修剪
  • ⭐ 完全无需重训模型,适配任意 off-the-shelf 扩散模型
  • 经验噪声注入有效避免了过度中性化(如生成女性化的男性)
  • 在历史性别确定的 prompt(如"中世纪铁匠")上保持语义一致性,不盲目"校正"

局限性 / 可改进方向

  • Accuracy 和 MUSIQ 有一定下降(Accuracy 从 0.785 降至 0.771),存在公平-保真 trade-off
  • FairPCA 假设偏见是线性可分的,非线性偏见可能残留在高维空间
  • 训练 FairPCA 投影矩阵需要一组带属性标注的 prompt,构建成本虽低但非零
  • 评估依赖 DeepFace 分类器检测人口属性,分类器本身可能有偏差
  • 仅在 Stable Diffusion 3 上验证,其他架构(DALL-E、Imagen 等)待确认

与相关工作的对比

特性 Prompt方法 微调方法 SDID TBIE FairImagen
无需训练
黑盒兼容
低人力
多属性同时去偏
保持语义保真

启发与关联

  • FairPCA 方法可推广到视频生成、3D 生成等其他多模态生成任务的去偏
  • 经验噪声注入的思想(沿偏差方向施加受控扰动)可用于数据增强
  • 联合属性空间构造方法(笛卡尔积)可泛化到年龄、残障等更多受保护属性
  • 在公平性和"历史准确性"之间的平衡是一个值得深入讨论的伦理话题

评分

  • 新颖性: ⭐⭐⭐⭐ (FairPCA + 经验噪声 + 联合去偏的组合新颖)
  • 实验充分度: ⭐⭐⭐⭐⭐ (多场景、多基线、多消融、定性分析全面)
  • 写作质量: ⭐⭐⭐⭐ (方法描述清晰,逻辑流畅)
  • 价值: ⭐⭐⭐⭐ (实用性强,即插即用的公平性工具)