Preference Adaptive and Sequential Text-to-Image Generation¶

会议: ICML 2025
arXiv: 2412.10419
代码: https://www.kaggle.com/datasets/googleai/pasta-data (数据集)
领域: Image Generation
关键词: 文本到图像, 个性化, 序列交互, 强化学习, 用户偏好

一句话总结¶

PASTA 将个性化 T2I 生成建模为多轮序列决策问题，通过 VLM 生成候选 prompt + EM 训练用户偏好模型 + IQL 离线 RL 学习价值函数，在人类评估中显著优于基线 LMM。

研究背景与动机¶

领域现状: T2I 扩散模型 (Stable Diffusion XL 等) 能生成高质量图像，但单轮生成难以精确匹配用户意图——尤其对复杂/抽象概念。

现有痛点: (a) 用户初始 prompt 往往不完整或模糊；(b) 一次性生成无法迭代改进；(c) 不同用户有不同的隐含偏好，通用方案难以适配。

核心矛盾: 用户意图的不确定性需要交互式探索来消解，但现有 T2I 系统缺乏个性化多轮交互能力。

本文切入: 将问题形式化为 Latent Contextual MDP——用户类型是隐变量，通过交互逐步推断。

核心 idea: LMM (Gemini Flash) 生成大量候选 prompt → 价值函数选择最优 slate → 用户选择反馈 → 迭代 H 轮。

方法详解¶

整体框架¶

初始 prompt → LMM 生成 \(L_C=25\) 候选 prompt (分 5 类) → 价值模型选择 \(L=4\) 个 → 每个 prompt 生成 \(M=4\) 张图 → 用户选择最喜欢的列 → 重复 \(H=5\) 轮。

关键设计¶

用户偏好模型 (EM 训练):
- 假设 \(K\) 个离散用户类型，每类有不同的评分函数
- 评分模型 \(s_\theta(k, p, I)\)：基于 CLIP 编码器 + 用户特定编码器头
- 效用模型：\(R_\theta = \text{Agg}(s_\theta(k,p,I_1),...,s_\theta(k,p,I_M))\)
- 选择模型：\(C_\theta = \text{Softmax}(\tau_\theta \cdot R_{1,t}^k,..., \tau_\theta \cdot R_{L,t}^k)\)
- E-step：计算每个样本属于各用户类型的后验 \(\gamma_i(k)\)
- M-step：最大化加权对数似然
- 设计动机：用 EM 发现用户类型的聚类结构，使偏好模型个性化
候选生成与选择 (LMM + 价值函数):
- LMM (Gemini 1.5 Flash) 作为候选生成器提供 \(L_C\) 个候选
- 候选分为 5 个类别 (重述、细化、风格、主题变换、创意)
- 每类最多选 1 个以保证多样性
- 价值函数分解：\(q_\phi(h, P) = \frac{1}{L} \sum_{p \in P} f_\phi(h, p)\)
- 设计动机：候选生成引入多样性/探索，价值函数实现利用；分解使选择从指数复杂度降到 \(O(L_C \log L_C)\)
离线 RL 训练 (IQL):
- 使用 Implicit Q-Learning 避免评估分布外的 state-action
- \(\alpha\)-expectile 值估计近似最优 Q 值
- 训练数据：真实人类评估数据 + 模拟用户数据 (30000+ 轨迹)
- 设计动机：离线 RL 效率高，IQL 对分布外问题鲁棒

损失函数 / 训练策略¶

用户模型：EM 交替优化（BT 偏好损失 + 评分回归损失 + 选择交叉熵）
价值函数：IQL 损失 = TD 误差 + expectile 值损失
两阶段数据：大规模单轮数据 (HPS v2, Pick-a-Pic, SAC) 预训练 + 人类多轮数据微调

实验关键数据¶

主实验 (人类评估, "Better/Same/Worse" 比例)¶

方法	Turn 2 Better	Turn 3 Better	Turn 4 Better	Turn 5 Better
PASTA (full)	~50%	~55%	~50%	~48%
Gemini Flash 基线	~40%	~38%	~35%	~32%

消融实验¶

配置	效果	说明
PASTA (真实+模拟数据)	最优	两种数据互补
PASTA (仅真实数据)	次优	数据量不足限制了泛化
PASTA (仅模拟数据)	略差于基线	模拟数据与真实分布有偏差
Gemini Flash (无RL)	基线	缺乏序列优化能力

用户模型评估¶

用户类型数 \(K\)	Pick-a-Pic 准确率	HPS 排名相关
1	~60%	~0.28
8	~64%	~0.33
32	~65%	~0.34
64	~65% (饱和)	~0.35

关键发现¶

用户类型数 \(K=8\) 即可捕捉主要偏好差异（动物、风景、食物、人像等）
真实+模拟数据的组合训练最有效——模拟数据提供数量，真实数据提供质量
对抽象 prompt (如"幸福的图像")，不同用户类型产生了明显不同的视觉风格
代码执行率和多样性约束对探索至关重要

亮点与洞察¶

问题形式化：将个性化 T2I 建模为 Latent Contextual MDP 非常自然且优雅
EM 用户建模：自动发现偏好聚类，无需显式标注用户类型
slate 价值分解：\(O(L_C \log L_C)\) 复杂度的选择策略使大候选集可行
首个开源多轮 T2I 数据集：对社区有长期价值

局限与展望¶

人类评估可能受评估者群体偏差影响（缺乏 A/B 测试基础设施）
模拟用户不完全反映真实行为
生成图像的 prompt expansion 对用户不可见，限制了交互透明度
价值函数基于 Gemma 2B (纯文本)，无法利用视觉信息

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将个性化序列决策引入 T2I，EM 用户建模很巧妙
实验充分度: ⭐⭐⭐⭐ 人类评估 + 模拟用户 + 消融 + 模型分析
写作质量: ⭐⭐⭐⭐⭐ 问题定义、方法设计、实验评估全面系统
价值: ⭐⭐⭐⭐⭐ 开源数据集 + 实用框架，对个性化生成有重要推动