Fair Generation without Unfair Distortions: Debiasing Text-to-Image Generation with Entanglement-Free Attention¶

会议: ICCV 2025
arXiv: 2506.13298
代码: 无
领域: 文本到图像生成/公平性
关键词: 去偏见, 属性解耦, 交叉注意力, 扩散模型, 公平性

一句话总结¶

提出 Entanglement-Free Attention（EFA），一种推理时应用的去偏见方法，通过修改跨注意力机制将目标属性（如性别、种族）注入人物区域，同时保持非目标属性（如背景、物品）不变，在消除生成偏见的同时避免引入新的不公平关联。

研究背景与动机¶

扩散模型（如 Stable Diffusion）在文本到图像生成中常表现出社会偏见——例如生成"nurse"时偏向女性、生成"CEO"时偏向白人男性。现有去偏见方法虽能调整目标属性分布，但存在关键问题：属性纠缠（Attribute Entanglement）。

本文通过一个生动的例子说明问题严重性：当用 prompt "face of successful man with his house" 并应用去偏见方法使种族多样化时，现有方法不仅改变了人物种族，还改变了房屋的材质和建筑风格——使黑人角色配低质量住宅，白人角色配高档住宅，反而加剧了社会经济地位的刻板印象。

现有方法的具体问题：

微调方法（UCE、Finetuning Diffusion）：在小数据集上微调导致生成质量和多样性下降，且不可避免地修改模型参数

推理时引导方法（Interpret Diffusion、Concept Algebra）：虽不修改模型参数，但仍然无法避免对背景等非目标属性的意外修改

本文的核心洞察：偏见消除应该仅限于语义相关的人物区域，非目标属性（如场景、物品、背景）不应该因去偏见而改变。

方法详解¶

整体框架¶

EFA 是一个轻量级的注意力增强模块，插入到 UNet 的特定交叉注意力层中。对于每种目标偏见 $C$（如性别），针对每个目标属性 $a_i$（如 female、male）分别训练一个 EFA 模块。推理时随机等概率采样一个属性，应用对应的 EFA 模块。

训练数据构造：用原始模型配合显式描述目标属性的 prompt 生成图像，用 Grounded SAM2 提取人物分割掩码，构成 $(\text{图像}, \text{掩码})$ 数据集。

关键设计¶

注意力值预测器（Attention Predictor, AP）：EFA 的核心组件是一个轻量级 AP 模块（3层卷积 + 2层 SiLU 激活），接收中间特征 $\mathbf{z}_t$ 并预测额外的注意力值。这些注意力值与原始交叉注意力的注意力值拼接后经 softmax，从而控制目标属性值向量 $V_{a_i}$ 的注入强度：

\[\text{EFA}_C^{a_i}(\mathbf{z}_t) = \text{softmax}\left(\left[\frac{QK^\top}{\sqrt{d}}, \text{AP}_{a_i}(\mathbf{z}_t)\right]\right) [V, V_{a_i}]\]

其中 $V_{a_i} = \pi(p_{a_i}) W_v$ 是目标属性文本的值向量。通过 softmax 的竞争机制，原始值向量和属性值向量的权重自动调节。

双场景训练策略：EFA 在两种场景下训练以学习自适应增强强度：
- 场景1（目标属性已存在）：输入包含目标属性 $a$ 的 prompt $p_a$ 和对应的噪声图像。此时 EFA 不应做任何修改，通过 L1 正则化将 AP 输出的注意力值推向零： $$\mathcal{L}_{reg}^{trg} = \|W \odot A_a(\mathbf{z}_t)\|_1, \quad W = \mathbf{1}$$
场景2（反事实属性）：输入包含反事实属性 $a^{cf}$ 的 prompt $p_a^{cf}$（如目标为 female 时输入 male），EFA 应在人物区域增强目标属性。使用掩码约束的重建损失： $$\mathcal{L}_{recon} = \mathbb{E}[\|M \odot (\epsilon - \epsilon_\theta(\mathbf{x}_t, t, p_a^{cf}))\|_2^2]$$

同时在非人物区域施加正则化防止影响扩散到背景： $$\mathcal{L}_{reg}^{cf} = \|\mathbf{1} - \bar{M}) \odot A_a(\mathbf{z}_t^{cf})\|_1$$

共享骨干的多属性 AP：同一偏见类型下的所有 AP 模块共享卷积骨干，仅输出通道不同。这使得多个属性的 EFA 可以联合高效训练。
推理时无需掩码：训练时使用分割掩码作为监督信号，但推理时完全不需要掩码。AP 已经学会在语义相关区域应用属性增强，实现全自动的去偏见生成。

损失函数 / 训练策略¶

总损失为： $$\mathcal{L}_{tot} = \mathcal{L}_{recon} + \lambda_1 \mathcal{L}_{reg}^{trg} + \lambda_2 \mathcal{L}_{reg}^{cf}$$

EFA 应用于 UNet 上采样模块中输入分辨率为 16×16 的层（低分辨率特征捕获高层语义信息）
仅更新 AP 模块参数，冻结扩散模型所有原始参数
基于 Stable Diffusion v1.5 实验
支持多偏见类型的扩展（如同时处理性别×种族偏见）

实验关键数据¶

主实验¶

WinoBias 36 种职业评估（$\mathcal{T}_{basic}$ / $\mathcal{T}_{complex}$ 两种 prompt 模板）：

性别偏见消除：

方法	DR↓ (basic)	PSNR↑ (basic)	LPIPS↓ (basic)	DINO↑ (basic)
Original SD	0.71	-	-	-
UCE	0.34	21.04	0.1374	0.757
Interpret Diff.	0.26	17.18	0.2290	0.616
Finetuning Diff.	0.48	22.62	0.1166	0.814
EFA (Ours)	0.06	32.52	0.0411	0.916

种族偏见消除：

方法	DR↓ (basic)	PSNR↑ (basic)	LPIPS↓ (basic)	DINO↑ (basic)
Original SD	0.60	-	-	-
UCE	0.27	21.55	0.1261	0.787
Interpret Diff.	0.16	16.87	0.2416	0.584
EFA (Ours)	0.04	30.93	0.0353	0.938

模型保持能力（COCO-no-person 数据集）：

方法	FID↓	CLIP-T↑
Original SD	-	26.17
UCE	11.65	25.17
Interpret Diff.	15.78	24.80
Finetuning Diff.	1.92	25.79
EFA (Ours)	0.23	26.03

消融实验¶

配置	说明
应用层选择	16×16 分辨率层最优，更高分辨率层影响细节保持
掩码使用	无掩码训练导致非目标属性保持下降
反事实训练	去掉反事实场景导致去偏见效果大幅下降
正则化权重	$\lambda_1$, $\lambda_2$ 平衡偏见消除和属性保持
多偏见扩展	性别×种族(8类)同时去偏，DR从0.56降至0.03

关键发现¶

EFA 的 DR 指标远优于所有基线（性别偏见：0.06 vs 次优 0.26；种族偏见：0.04 vs 次优 0.16）
非目标属性保持能力领先巨大：PSNR 32.52 vs 次优 22.62（+10 dB！），DINO 0.916 vs 次优 0.814
模型保持能力最强：FID 仅 0.23（意味着非人物图像几乎不受影响），而 UCE 为 11.65
推理成本极低：仅在选定层增加轻量级 AP 模块

亮点与洞察¶

问题定义精准：首次明确提出"属性纠缠"问题，揭示现有去偏见方法可能引入新偏见
设计优雅：通过拼接额外注意力值到 softmax，利用注意力竞争机制自然实现属性增强/抑制
双场景训练：让 AP 学会"该增强时增强、不该动时不动"的自适应能力
实用性强：推理无需掩码、不修改模型参数、支持多偏见类型、用户可通过调整采样概率控制属性分布
定量领先幅度惊人：非目标属性保持指标碾压所有基线方法

局限与展望¶

当前仅聚焦于人物为中心的偏见（gender、race），对物类或场景级偏见尚未验证
依赖 CLIP 分类器评估属性分布，CLIP 本身可能存在分类偏差
二元性别设定是实验评估的简化，不反映性别多样性
人物分割掩码质量影响训练效果，极端遮挡场景可能出问题
对于非预定义的属性偏见（如社会经济地位），仍需要先验知识定义目标属性集合
仅在 SD v1.5 上验证，对更新架构（如 SDXL、SD3）的适用性待验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 属性纠缠问题的提出极具洞察力，EFA 设计简洁有效
实验充分度: ⭐⭐⭐⭐⭐ 三维度评估(偏见/属性保持/模型保持)+两种prompt+多偏见组合
写作质量: ⭐⭐⭐⭐⭐ 动机图(Fig.1)一目了然，问题阐述极为清晰
价值: ⭐⭐⭐⭐⭐ 实际可部署的去偏方案，解决了长期被忽视的属性纠缠问题