Exposing Hidden Biases in Text-to-Image Models via Automated Prompt Search¶
会议: ICLR 2026
arXiv: 2512.08724
代码: 无
领域: 图像生成
关键词: 文本到图像偏见, 自动化提示搜索, 公平性, 偏见审计, 扩散模型
一句话总结¶
提出 Bias-Guided Prompt Search (BGPS),通过结合 LLM 解码引导和扩散模型中间层属性分类器,自动发现可解释的、能最大化暴露 T2I 模型隐藏社会偏见的文本提示,即使对已去偏的模型也能揭示残留偏见。
研究背景与动机¶
文本到图像(T2I)扩散模型已被反复证明会在性别、种族和年龄等敏感属性上表现出社会偏见。例如,Stable Diffusion 生成"工程师"时 100% 为男性面孔。现有的偏见评估和缓解方法面临覆盖度与可解释性的根本两难:
- 手动或 LLM 辅助策展:生成可理解的提示,但仅探索提示空间的有限部分
- 梯度优化方法(如 PEZ):可发现高偏见区域,但产生不可读文本(如 "nurse keras matplotlib tbody"),不适合实际审计
更严重的问题是:已去偏的模型在标准基准上表现平衡(49% 男性),但面对 BGPS 发现的提示时可生成 79% 男性图像——这意味着去偏方法实际上只解决了表面问题。
方法详解¶
整体框架¶
BGPS 的目标是最大化联合概率 \(\mathbb{P}(A=a, \boldsymbol{s})\),其中 \(A\) 为敏感属性(如性别),\(\boldsymbol{s}\) 为提示文本:
两个核心组件: 1. LLM 语言先验 \(\mathbb{P}(\boldsymbol{s})\):确保生成的提示自然、可解释、属性中立 2. 属性分类器 \(\mathbb{P}(A=a|\cdot)\):基于扩散模型中间层激活的轻量线性分类器,引导 LLM 解码方向
超参 \(\lambda\) 控制两项的相对权重——\(\lambda\) 越大,偏见暴露越强但提示自然度可能下降。
关键设计¶
1. 属性分类器¶
在 Stable Diffusion 1.5 的 UNet 中间层激活上训练的轻量线性分类头: - 输入:扩散过程中某步的 UNet 中间层特征 - 输出:敏感属性(性别 2 类 / 种族 4 类)的概率 - 用 \(K\) 次生成取平均,避免单次采样偏差
2. Beam Search 解码¶
利用 LLM 的自回归分解 \(\mathbb{P}(\boldsymbol{s}) = \prod_{i=1}^N p(s_i | s_{<i})\) 进行逐 token 评分与搜索:
| 参数 | 说明 |
|---|---|
| 束宽 \(B\) | 保留的高分候选数 |
| 扩展因子 \(E\) | 每步扩展候选数 |
| 额外扩展 \(E'\) | 增加多样性的采样因子 |
提示多样性保证: - 第一个 token 直接从 LLM 完整 logits 分布采样 - 后续 token 通过 \(B \times E\) 采样 + 打分选 Top-B - 遇到 EOS 的 beam 被保存并移出池
3. LLM 指令设计¶
LLM 被明确指示: - 生成属性中立的提示(不提及性别/种族等) - 生成"典型用户可能输入的"自然提示 - 默认 LLM:Mistral-7B-v0.2
损失函数 / 训练策略¶
BGPS 不涉及模型训练。属性分类器为预训练的线性头。优化过程为: - 搜索算法:引导式 beam search - 评估:100 条发现提示 × 每条 10 张图 → 分类统计 - Perplexity 评估:使用 GPT-2(不同于搜索用的 LLM),确保独立评估
实验关键数据¶
主实验¶
表1:男性偏见提示发现(Mistral-7B-0.2)
| 方法 | Base 男性比例↑ | 去偏FT 男性比例 | 去偏DL 男性比例 | PPL↓ | 显性性别% ↓ |
|---|---|---|---|---|---|
| 手动策展 | 0.53 | 0.49 | 0.31 | 96 | 0 |
| PEZ(梯度优化) | 0.80 | 0.78 | 0.84 | 1387 | 94 |
| LLM only | 0.69 | 0.59 | 0.44 | 71 | 1 |
| BGPS (λ=10) | 0.76 | 0.66 | 0.46 | 52 | 2 |
| BGPS (λ=100) | 0.92 | 0.79 | 0.70 | 122 | 17 |
关键发现:BGPS (λ=100) 在 Base 模型上达到 92% 男性比例,困惑度仅 122(远低于 PEZ 的 1387),且仅 17% 提示显式提及性别。
表2:特定职业的性别偏见放大
| 职业 | LLM 男性比例 | BGPS 男性比例 | LLM 女性比例 | BGPS 女性比例 |
|---|---|---|---|---|
| 工程师 | 0.73 | 0.84 | 0.21 | 0.68 |
| 医生 | 0.67 | 0.82 | 0.33 | 0.78 |
| 护士 | 0.40 | 0.61 | 0.52 | 0.87 |
| 科学家 | 0.69 | 0.83 | 0.29 | 0.64 |
消融实验¶
不同 LLM 对比(3 种 LLM × 3 种模型): - Mistral-7B-0.2、Qwen3-8B、Llama-3.2-1B 均可被 BGPS 有效引导 - 更小的 Llama-1B 模型虽 PPL 可比,但更多提示显式提及性别(遵循指令能力弱) - BGPS 对 LLM 选择具有鲁棒性
超越职业偏见(表3):
| 场景 | 条件 | 男性% | 女性% |
|---|---|---|---|
| 物体 | LLM only | 0.10 | 0.00 |
| 物体 | BGPS 偏男 | 0.54 | 0.26 |
| 活动 | BGPS 偏男 | 0.73 | 0.07 |
| 场景 | BGPS 偏男 | 0.80 | 0.10 |
关键发现¶
- 去偏模型的脆弱性:经 LoRA 微调去偏的模型在标准提示上达 49% 男性比例(平衡),但 BGPS 提示可推至 79%
- 语言修饰词的戏剧性影响:为 "scientist" 添加 "with intense focus" 将男性比例从 65% 推至 95%
- 系统性语言关联:思考类词汇("serious", "concerned")→ 男性;情感类词汇("compassionate", "joyful")→ 女性
- BGPS 注入新词而非放大已有偏见词:约一半词汇被替换成新的偏见关联词
亮点与洞察¶
- 覆盖度与可解释性的突破:BGPS 生成的提示困惑度比 PEZ 低 17-26 倍,同时保持可比的偏见发现能力
- 对去偏方法的审计价值:揭示了去偏模型"通过考试但实际未学会"的深层问题
- 语义层面的偏见分析:词频分析和 δ_w 度量提供了理解偏见编码机制的定量工具
- 实用的审计工具:仅需灰箱访问(中间层激活),可应用于商业 T2I 系统审计
- 互补性设计:BGPS 发现的偏见提示可直接加入去偏训练集,形成闭环
局限性 / 可改进方向¶
- 仅在 Stable Diffusion 1.5 及其去偏变体上深入验证,对更新模型(SDXL、FLUX)的验证有限
- 属性分类器仅覆盖性别(2类)和种族(4类),对年龄、残障等其他敏感属性未深入探索
- 属性分类器本身训练在手动策展数据上,可能引入额外偏见
- Beam search 的搜索效率有限,可探索进化算法或强化学习
- 未评估 BGPS 发现的偏见提示用于去偏训练后的实际效果
相关工作与启发¶
- VGD (Visually-Guided Decoding):BGPS 的直接灵感来源——将图像反演改造为偏见发现
- Difflens (SAE-based 去偏):BGPS 测试对象之一,揭示其残留偏见
- OpenBias:LLM 提出偏见 + VQA 评估,但不进行引导式搜索
- GELDA:"半自动"框架,LLM 提议偏见修饰词
- 启发:引导式解码(guided decoding)的思路可推广到发现其他类型的模型脆弱性
评分¶
- 新颖性:⭐⭐⭐⭐⭐ — 首个自动发现可解释偏见提示的方法,填补关键空白
- 技术贡献:⭐⭐⭐⭐ — LLM 引导 + 属性分类器的结合简洁有效
- 实验充分度:⭐⭐⭐⭐ — 多 LLM、多模型、多属性维度的消融
- 写作质量:⭐⭐⭐⭐ — 研究动机和定位非常清晰
- 总体推荐:⭐⭐⭐⭐⭐ — 具有重要社会影响力的工作,对 T2I 公平性研究贡献显著