Preference Adaptive and Sequential Text-to-Image Generation¶
会议: ICML 2025
arXiv: 2412.10419
代码: https://www.kaggle.com/datasets/googleai/pasta-data (数据集)
领域: Image Generation
关键词: 文本到图像, 个性化, 序列交互, 强化学习, 用户偏好
一句话总结¶
PASTA 将个性化 T2I 生成建模为多轮序列决策问题,通过 VLM 生成候选 prompt + EM 训练用户偏好模型 + IQL 离线 RL 学习价值函数,在人类评估中显著优于基线 LMM。
研究背景与动机¶
领域现状: T2I 扩散模型 (Stable Diffusion XL 等) 能生成高质量图像,但单轮生成难以精确匹配用户意图——尤其对复杂/抽象概念。
现有痛点: (a) 用户初始 prompt 往往不完整或模糊;(b) 一次性生成无法迭代改进;(c) 不同用户有不同的隐含偏好,通用方案难以适配。
核心矛盾: 用户意图的不确定性需要交互式探索来消解,但现有 T2I 系统缺乏个性化多轮交互能力。
本文切入: 将问题形式化为 Latent Contextual MDP——用户类型是隐变量,通过交互逐步推断。
核心 idea: LMM (Gemini Flash) 生成大量候选 prompt → 价值函数选择最优 slate → 用户选择反馈 → 迭代 H 轮。
方法详解¶
整体框架¶
初始 prompt → LMM 生成 \(L_C=25\) 候选 prompt (分 5 类) → 价值模型选择 \(L=4\) 个 → 每个 prompt 生成 \(M=4\) 张图 → 用户选择最喜欢的列 → 重复 \(H=5\) 轮。
关键设计¶
-
用户偏好模型 (EM 训练):
- 假设 \(K\) 个离散用户类型,每类有不同的评分函数
- 评分模型 \(s_\theta(k, p, I)\):基于 CLIP 编码器 + 用户特定编码器头
- 效用模型:\(R_\theta = \text{Agg}(s_\theta(k,p,I_1),...,s_\theta(k,p,I_M))\)
- 选择模型:\(C_\theta = \text{Softmax}(\tau_\theta \cdot R_{1,t}^k,..., \tau_\theta \cdot R_{L,t}^k)\)
- E-step:计算每个样本属于各用户类型的后验 \(\gamma_i(k)\)
- M-step:最大化加权对数似然
- 设计动机:用 EM 发现用户类型的聚类结构,使偏好模型个性化
-
候选生成与选择 (LMM + 价值函数):
- LMM (Gemini 1.5 Flash) 作为候选生成器提供 \(L_C\) 个候选
- 候选分为 5 个类别 (重述、细化、风格、主题变换、创意)
- 每类最多选 1 个以保证多样性
- 价值函数分解:\(q_\phi(h, P) = \frac{1}{L} \sum_{p \in P} f_\phi(h, p)\)
- 设计动机:候选生成引入多样性/探索,价值函数实现利用;分解使选择从指数复杂度降到 \(O(L_C \log L_C)\)
-
离线 RL 训练 (IQL):
- 使用 Implicit Q-Learning 避免评估分布外的 state-action
- \(\alpha\)-expectile 值估计近似最优 Q 值
- 训练数据:真实人类评估数据 + 模拟用户数据 (30000+ 轨迹)
- 设计动机:离线 RL 效率高,IQL 对分布外问题鲁棒
损失函数 / 训练策略¶
- 用户模型:EM 交替优化(BT 偏好损失 + 评分回归损失 + 选择交叉熵)
- 价值函数:IQL 损失 = TD 误差 + expectile 值损失
- 两阶段数据:大规模单轮数据 (HPS v2, Pick-a-Pic, SAC) 预训练 + 人类多轮数据微调
实验关键数据¶
主实验 (人类评估, "Better/Same/Worse" 比例)¶
| 方法 | Turn 2 Better | Turn 3 Better | Turn 4 Better | Turn 5 Better |
|---|---|---|---|---|
| PASTA (full) | ~50% | ~55% | ~50% | ~48% |
| Gemini Flash 基线 | ~40% | ~38% | ~35% | ~32% |
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| PASTA (真实+模拟数据) | 最优 | 两种数据互补 |
| PASTA (仅真实数据) | 次优 | 数据量不足限制了泛化 |
| PASTA (仅模拟数据) | 略差于基线 | 模拟数据与真实分布有偏差 |
| Gemini Flash (无RL) | 基线 | 缺乏序列优化能力 |
用户模型评估¶
| 用户类型数 \(K\) | Pick-a-Pic 准确率 | HPS 排名相关 |
|---|---|---|
| 1 | ~60% | ~0.28 |
| 8 | ~64% | ~0.33 |
| 32 | ~65% | ~0.34 |
| 64 | ~65% (饱和) | ~0.35 |
关键发现¶
- 用户类型数 \(K=8\) 即可捕捉主要偏好差异(动物、风景、食物、人像等)
- 真实+模拟数据的组合训练最有效——模拟数据提供数量,真实数据提供质量
- 对抽象 prompt (如"幸福的图像"),不同用户类型产生了明显不同的视觉风格
- 代码执行率和多样性约束对探索至关重要
亮点与洞察¶
- 问题形式化:将个性化 T2I 建模为 Latent Contextual MDP 非常自然且优雅
- EM 用户建模:自动发现偏好聚类,无需显式标注用户类型
- slate 价值分解:\(O(L_C \log L_C)\) 复杂度的选择策略使大候选集可行
- 首个开源多轮 T2I 数据集:对社区有长期价值
局限与展望¶
- 人类评估可能受评估者群体偏差影响(缺乏 A/B 测试基础设施)
- 模拟用户不完全反映真实行为
- 生成图像的 prompt expansion 对用户不可见,限制了交互透明度
- 价值函数基于 Gemma 2B (纯文本),无法利用视觉信息
相关工作与启发¶
- EUREKA/L2R 系列用 LLM 做奖励设计
- Diffusion model alignment (DPO for diffusion)
- 推荐系统中的偏好引出 (preference elicitation) 理论
- 启发:T2I 不应是一次性交互,而应是协作共创过程
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次将个性化序列决策引入 T2I,EM 用户建模很巧妙
- 实验充分度: ⭐⭐⭐⭐ 人类评估 + 模拟用户 + 消融 + 模型分析
- 写作质量: ⭐⭐⭐⭐⭐ 问题定义、方法设计、实验评估全面系统
- 价值: ⭐⭐⭐⭐⭐ 开源数据集 + 实用框架,对个性化生成有重要推动
相关论文¶
- [NeurIPS 2025] Diffusion Adaptive Text Embedding for Text-to-Image Diffusion Models
- [ECCV 2024] Stable Preference: Redefining Training Paradigm of Human Preference Model for Text-to-Image Synthesis
- [ICML 2025] Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment
- [ECCV 2024] AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation
- [CVPR 2026] Resolving the Identity Crisis in Text-to-Image Generation