Minority-Focused Text-to-Image Generation via Prompt Optimization¶

会议: CVPR 2025
arXiv: 2410.07838
代码: https://github.com/soobin-um/MinorityPrompt
领域: 扩散模型 / 图像生成
关键词: 少数样本生成, Prompt优化, 文本到图像, 低密度采样, 扩散模型偏见

一句话总结¶

MinorityPrompt 提出了一种在线 prompt 优化框架，通过在推理过程中迭代优化可学习 token embedding 来最大化似然度损失，引导 T2I 扩散模型生成处于数据分布低密度区域的少数(minority)样本，同时保持语义一致性和生成质量。

研究背景与动机¶

领域现状：文本到图像（T2I）扩散模型配合 CFG 引导已能生成高质量、忠实于提示的图像。CFG 等引导技术本质上倾向于从数据流形的高密度区域采样，生成"典型"图像。
现有痛点：这种高密度偏好使得模型很难生成少数(minority)样本——位于条件数据分布低密度区域的独特实例。这导致 T2I 生成的数据缺乏多样性，且会在下游应用（如数据增强）中延续和放大偏见（如年龄、种族刻板印象）。
核心矛盾：现有少数样本采样方法要么需要外部分类器（难以获取），要么仅在简单图像基准上有效，在 T2I 场景下表现有限。现有在线 prompt 优化方法修改整个文本嵌入，容易破坏原始提示的语义。
本文目标 如何在保持文本语义的前提下，引导 T2I 模型生成低密度区域的独特minority样本？
切入角度：不修改整个文本嵌入，而是在 prompt 末尾附加一个可学习 token，仅优化这个 token 的嵌入来最大化重建损失（似然度代理），从而在保留语义的同时鼓励生成独特特征。
核心 idea：通过在推理时在线优化附加的可学习 token embedding 来最大化负 ELBO 近似，使生成结果偏向低似然度的独特minority样本。

方法详解¶

整体框架¶

给定用户提示 \(\mathcal{P}\)（如 "A portrait of a dog"），MinorityPrompt 在其末尾附加一个占位符字符串 \(\mathcal{S}\)，得到增强提示 \(\mathcal{P}_\mathcal{S}\)。在每个采样时间步 \(t\)，优化 \(\mathcal{S}\) 对应的 token embedding \(\boldsymbol{v}\)，使得基于该 embedding 的去噪结果具有更高的重建损失（近似低似然度）。优化后的 embedding 用于当前步的采样，然后传递到下一步作为初始点继续优化。

关键设计¶

语义保留的 Prompt 优化框架:
- 功能：在不破坏原始提示语义的前提下引入可控的额外语义信息。
- 核心思路：不优化整个文本嵌入 \(\mathcal{C}\)，而是只优化附加的可学习 token 的嵌入向量 \(\boldsymbol{v}\)。文本编码器处理增强提示 \(\mathcal{P}_\mathcal{S}\) 时，原始 prompt 中每个词的 token embedding 保持不变，仅 \(\mathcal{S}\) 对应的嵌入被更新。优化目标为 \(\boldsymbol{v}_t^* = \arg\max_{\boldsymbol{v}} \mathcal{J}(\boldsymbol{z}_t, \mathcal{C}_{\boldsymbol{v}})\)。
- 设计动机：直接修改整个 \(\mathcal{C}\) 会改变所有 token embedding，破坏语义。仅优化附加 token 是一种更安全的途径，且允许 embedding 随时间步自适应变化（不同于 Textual Inversion 等需要预训练固定 embedding 的方法）。
基于似然度的 Minority 目标函数:
- 功能：驱动生成结果偏向低密度区域。
- 核心思路：定义目标函数 \(\mathcal{J}_\mathcal{C}(\boldsymbol{z}_t, \mathcal{C}_{\boldsymbol{v}}) = \mathbb{E}_\epsilon[\|\hat{\boldsymbol{z}}_0(\boldsymbol{z}_t, \mathcal{C}_{\boldsymbol{v}}) - \hat{\boldsymbol{z}}_0(\boldsymbol{z}_{s|t,0}, \mathcal{C})\|^2_2]\)，其中第一项用含优化 token 的条件去噪，第二项用原始条件对同一清洁估计的加噪版本再去噪。论文证明这个目标与 \(-\log p_\theta(\hat{\boldsymbol{z}}_0 | \mathcal{C})\) 的负 ELBO 等价，因此最大化它等于推动生成结果远离高密度区域。
- 设计动机：相比朴素的 CFG-based 目标函数，该设计避免了三个问题：(i) 不依赖 CFG 的去噪估计，(ii) 允许梯度通过第二项流动，(iii) 第二项使用原始条件 \(\mathcal{C}\) 而非 \(\mathcal{C}_{\boldsymbol{v}}\)。
稳定化技术 (stop-gradient trick + 退火时间步):
- 功能：稳定优化过程并提升生成质量。
- 核心思路：将目标函数拆分为 \(\tilde{\mathcal{J}}_\mathcal{C} = \mathcal{J}^1_\mathcal{C} + \lambda \mathcal{J}^2_\mathcal{C}\)，其中 \(\mathcal{J}^1\) 在第二项上加 stop-gradient，\(\mathcal{J}^2\) 在第一项上加 stop-gradient，\(\lambda=1\) 时效果最佳。同时采用退火时间步 \(s = T - t\) 替代固定值。每隔 \(N\) 步优化一次，非优化步使用原始 prompt \(\mathcal{C}\)。
- 设计动机：双向 stop-gradient 让两项各自承担不同优化方向，退火时间步适配不同噪声水平下的最优重建尺度，间隔优化节省计算成本且稳定输出质量。

损失函数 / 训练策略¶

MinorityPrompt 是推理时方法，不需要额外训练。在推理期间使用 Adam 优化器更新 \(\boldsymbol{v}\)，每个优化步迭代 \(K\) 次。实验中在 SDv1.5 和 SDv2.0 上用 50 步 DDIM + CFG \(w=7.5\)，在 SDXL-Lightning 上用 4 步 + \(w=1.0\)。

实验关键数据¶

主实验¶

使用 MS-COCO 验证集 10K 个随机 caption 评测：

模型	方法	CLIPScore↑	PickScore↑	ImageReward↑	Likelihood↓
SDv1.5	DDIM	31.48	21.48	0.211	1.037
SDv1.5	SGMS	31.17	21.21	0.123	0.954
SDv1.5	MinorityPrompt	31.54	21.31	0.235	0.897
SDv2.0	DDIM	31.85	21.68	0.382	1.110
SDv2.0	MinorityPrompt	31.96	21.60	0.425	0.914
SDXL-LT	DDIM	31.52	22.67	0.733	0.608
SDXL-LT	SGMS	31.30	22.58	0.680	0.546
SDXL-LT	MinorityPrompt	31.34	22.61	0.710	0.546

MinorityPrompt 在保持文本对齐度和质量的同时，显著降低了似然度。

消融实验¶

配置	CLIPScore↑	Likelihood↓	说明
全 embedding 优化	30.8	0.91	语义偏移严重
Token 优化 (本文)	31.5	0.90	语义保留更好
无退火时间步	31.3	0.93	固定 s 效果差
无 stop-gradient trick	31.4	0.92	优化不稳定

关键发现¶

Token 优化 vs 全 embedding 优化：Token 优化在 CLIPScore 上高出 0.7，证明语义保留效果更好。
似然度有效降低：MinorityPrompt 是唯一在所有模型上都同时降低似然度且保持高文本对齐的方法。SGMS 虽也降低似然度但牺牲了质量。
可控语义增强：通过选择有意义的初始 token embedding（如 "old"、"Asian"），可以引导minority特征的方向，这是纯 latent 空间方法无法实现的。
84% 用户在 user study 中偏好 MinorityPrompt 生成的minority样本。

亮点与洞察¶

仅优化附加 token 而非整个 embedding 的策略非常优雅：既保留了原始语义又引入了可学习的自由度，这个思路可以迁移到任何需要在推理时微调条件的生成任务（如引导风格、增强特定属性）。
将重建损失与负 ELBO 联系起来的理论推导给出了明确的优化目标的数学保证，使得看似 heuristic 的"最大化重建误差"有了理论支撑。
方法的隐含偏见缓解功能很有意义：通过生成minority样本来对抗 T2I 模型中的刻板印象偏见（如将 "man" 与 "young" 关联），具有社会影响力。

局限与展望¶

每个优化步需要额外的前向+反向传播，推理速度比标准 DDIM 慢数倍。
"minority"的定义完全依赖模型学到的分布，如果模型本身在某些区域采样不足，可能无法到达那些区域。
在蒸馏模型 (SDXL-Lightning) 上效果不如全步模型显著，可能因为 4 步采样的优化空间有限。
缺乏对生成的minority样本的真实性评估——低密度不一定意味着有意义的多样性。

评分¶

新颖性: ⭐⭐⭐⭐ 将minority采样问题转化为在线prompt优化是新颖的formulation
实验充分度: ⭐⭐⭐⭐ 多种SD版本、多指标、消融和用户研究齐全
写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨，符号一致，写作流畅
价值: ⭐⭐⭐⭐ 对T2I多样性和偏见缓解有实际意义