FairImagen: Post-Processing for Bias Mitigation in Text-to-Image Models¶
会议: NeurIPS 2025 arXiv: 2510.21363 代码: fuzihaofzh/FairImagen 领域: image_generation 关键词: 公平性, 偏见缓解, Stable Diffusion, FairPCA, 文本到图像
一句话总结¶
提出 FairImagen 后处理去偏框架,通过在 CLIP prompt 嵌入空间应用 FairPCA 投影去除人口统计信息,结合经验噪声注入和跨人口统计联合去偏,在不重训模型的前提下显著提升文本到图像生成的公平性。
背景与动机¶
Stable Diffusion 等文本到图像模型在生成过程中会复制甚至放大社会偏见——例如"CEO"倾向生成白人男性,"nurse"生成女性。现有去偏方法分三类: - Prompt 方法:每张图都需手动改写,费力且不通用 - 微调方法:需要访问模型内部参数,计算成本高 - 后处理方法(SDID、TBIE等):轻量但现有方案存在语义漂移、方向粗糙、多属性泛化差等问题
作者聚焦后处理方向,旨在提供一种简单、可扩展、模型无关的公平性解决方案。
核心问题¶
- 如何在 prompt 嵌入空间中精确去除人口统计信息而保留语义内容?
- 去偏后输出过于"中性化"怎么办?
- 如何同时处理多个受保护属性(性别+种族)而避免过度修剪?
方法详解¶
模块 1:Prompt 嵌入提取¶
对 prompt \(p\) 使用 CLIP 编码器提取 token 级嵌入 \(E_p \in \mathbb{R}^{T \times D}\) 和池化嵌入 \(\bar{E}_p \in \mathbb{R}^D\)。按受保护属性分组构建嵌入矩阵 \(X\) 和分组指示矩阵 \(Z\)。
模块 2:Fair Representation 变换(FairPCA)¶
经典 PCA 优化:
FairPCA 加入公平正则项:
其中 \(B = Z^T X \in \mathbb{R}^{G \times D}\) 为分组特征矩阵,\(\lambda\) 控制重建质量和公平性的权衡。约束 \(P\) 在 \(\mathcal{N}(B)\) 中确保投影后的表示与任何区分不同群体的方向正交。
推理时对嵌入进行投影:\(\bar{E}_p' = PP^T \bar{E}_p\),\(E_p' = E_p PP^T\)。
模块 3:经验噪声注入¶
防止输出过度中性化。计算每个群体 \(g\) 的偏差方向:
构建经验分布 \(\mathcal{D}_g = \{\nu_g^T \bar{E}_p : \bar{E}_p \in X^{(g)}\}\),采样 \(\delta \sim \mathcal{D}_g\) 施加扰动:
\(\epsilon\) 为可调噪声缩放参数。
模块 4:跨人口统计联合去偏¶
不同于对各属性逐一投影(导致过度修剪),构建联合属性空间的笛卡尔积。如性别 \(\{M, F\}\) × 种族 \(\{W, A, B\}\) = 6 个复合群体,在此联合空间上一次性应用 FairPCA。
实验关键数据¶
性别去偏¶
| 方法 | Fairness↑ | Accuracy↑ | MUSIQ↑ | Avg↑ |
|---|---|---|---|---|
| Base(Stable Diffusion) | 0.167 | 0.785 | 0.574 | 0.509 |
| SDID | 0.507 | 0.776 | 0.553 | 0.612 |
| CDA | 0.547 | 0.772 | 0.549 | 0.623 |
| FairImagen | 0.560 | 0.771 | 0.541 | 0.624 |
| FairPrompt (上界) | 0.732 | 0.766 | 0.586 | 0.695 |
种族去偏¶
| 方法 | Fairness↑ | Accuracy↑ | MUSIQ↑ | Avg↑ |
|---|---|---|---|---|
| Base | 0.193 | 0.785 | 0.574 | 0.517 |
| SDID | 0.370 | 0.770 | 0.537 | 0.559 |
| TBIE | 0.366 | 0.762 | 0.532 | 0.553 |
| FairImagen | 0.389 | 0.760 | 0.536 | 0.562 |
| FairPrompt (上界) | 0.444 | 0.752 | 0.566 | 0.587 |
性别+种族联合去偏¶
| 方法 | Gender Fair↑ | Race Fair↑ | Accuracy↑ | MUSIQ↑ | Avg↑ |
|---|---|---|---|---|---|
| Base | 0.163 | 0.193 | 0.785 | 0.574 | 0.508 |
| TBIE | 0.400 | 0.286 | 0.776 | 0.546 | 0.574 |
| FairImagen | 0.537 | 0.320 | 0.753 | 0.544 | 0.611 |
| FairPrompt (上界) | 0.690 | 0.478 | 0.747 | 0.574 | 0.671 |
关键消融发现: - 隐藏维度减小 → 公平性提升但 Accuracy/MUSIQ 下降 - 噪声参数 e-noise 增大 → 公平性提升,尤其在联合去偏中效果显著
亮点¶
- ⭐ FairPCA 的公平-语义权衡有明确数学形式,\(\lambda\) 提供精确控制旋钮
- ⭐ 跨人口统计联合去偏方法(笛卡尔积构造)避免了逐属性投影的过度修剪
- ⭐ 完全无需重训模型,适配任意 off-the-shelf 扩散模型
- 经验噪声注入有效避免了过度中性化(如生成女性化的男性)
- 在历史性别确定的 prompt(如"中世纪铁匠")上保持语义一致性,不盲目"校正"
局限性 / 可改进方向¶
- Accuracy 和 MUSIQ 有一定下降(Accuracy 从 0.785 降至 0.771),存在公平-保真 trade-off
- FairPCA 假设偏见是线性可分的,非线性偏见可能残留在高维空间
- 训练 FairPCA 投影矩阵需要一组带属性标注的 prompt,构建成本虽低但非零
- 评估依赖 DeepFace 分类器检测人口属性,分类器本身可能有偏差
- 仅在 Stable Diffusion 3 上验证,其他架构(DALL-E、Imagen 等)待确认
与相关工作的对比¶
| 特性 | Prompt方法 | 微调方法 | SDID | TBIE | FairImagen |
|---|---|---|---|---|---|
| 无需训练 | ✓ | ✗ | ✓ | ✓ | ✓ |
| 黑盒兼容 | ✓ | ✗ | ✓ | ✓ | ✓ |
| 低人力 | ✗ | ✓ | ✓ | ✓ | ✓ |
| 多属性同时去偏 | ✗ | ✓ | ✗ | ✗ | ✓ |
| 保持语义保真 | ✓ | ✓ | 弱 | 弱 | 中 |
启发与关联¶
- FairPCA 方法可推广到视频生成、3D 生成等其他多模态生成任务的去偏
- 经验噪声注入的思想(沿偏差方向施加受控扰动)可用于数据增强
- 联合属性空间构造方法(笛卡尔积)可泛化到年龄、残障等更多受保护属性
- 在公平性和"历史准确性"之间的平衡是一个值得深入讨论的伦理话题
评分¶
- 新颖性: ⭐⭐⭐⭐ (FairPCA + 经验噪声 + 联合去偏的组合新颖)
- 实验充分度: ⭐⭐⭐⭐⭐ (多场景、多基线、多消融、定性分析全面)
- 写作质量: ⭐⭐⭐⭐ (方法描述清晰,逻辑流畅)
- 价值: ⭐⭐⭐⭐ (实用性强,即插即用的公平性工具)