跳转至

Preference Adaptive and Sequential Text-to-Image Generation

会议: ICML 2025
arXiv: 2412.10419
代码: https://www.kaggle.com/datasets/googleai/pasta-data (数据集)
领域: Image Generation
关键词: 文本到图像, 个性化, 序列交互, 强化学习, 用户偏好

一句话总结

PASTA 将个性化 T2I 生成建模为多轮序列决策问题,通过 VLM 生成候选 prompt + EM 训练用户偏好模型 + IQL 离线 RL 学习价值函数,在人类评估中显著优于基线 LMM。

研究背景与动机

领域现状: T2I 扩散模型 (Stable Diffusion XL 等) 能生成高质量图像,但单轮生成难以精确匹配用户意图——尤其对复杂/抽象概念。

现有痛点: (a) 用户初始 prompt 往往不完整或模糊;(b) 一次性生成无法迭代改进;(c) 不同用户有不同的隐含偏好,通用方案难以适配。

核心矛盾: 用户意图的不确定性需要交互式探索来消解,但现有 T2I 系统缺乏个性化多轮交互能力。

本文切入: 将问题形式化为 Latent Contextual MDP——用户类型是隐变量,通过交互逐步推断。

核心 idea: LMM (Gemini Flash) 生成大量候选 prompt → 价值函数选择最优 slate → 用户选择反馈 → 迭代 H 轮。

方法详解

整体框架

初始 prompt → LMM 生成 \(L_C=25\) 候选 prompt (分 5 类) → 价值模型选择 \(L=4\) 个 → 每个 prompt 生成 \(M=4\) 张图 → 用户选择最喜欢的列 → 重复 \(H=5\) 轮。

关键设计

  1. 用户偏好模型 (EM 训练):

    • 假设 \(K\) 个离散用户类型,每类有不同的评分函数
    • 评分模型 \(s_\theta(k, p, I)\):基于 CLIP 编码器 + 用户特定编码器头
    • 效用模型:\(R_\theta = \text{Agg}(s_\theta(k,p,I_1),...,s_\theta(k,p,I_M))\)
    • 选择模型:\(C_\theta = \text{Softmax}(\tau_\theta \cdot R_{1,t}^k,..., \tau_\theta \cdot R_{L,t}^k)\)
    • E-step:计算每个样本属于各用户类型的后验 \(\gamma_i(k)\)
    • M-step:最大化加权对数似然
    • 设计动机:用 EM 发现用户类型的聚类结构,使偏好模型个性化
  2. 候选生成与选择 (LMM + 价值函数):

    • LMM (Gemini 1.5 Flash) 作为候选生成器提供 \(L_C\) 个候选
    • 候选分为 5 个类别 (重述、细化、风格、主题变换、创意)
    • 每类最多选 1 个以保证多样性
    • 价值函数分解:\(q_\phi(h, P) = \frac{1}{L} \sum_{p \in P} f_\phi(h, p)\)
    • 设计动机:候选生成引入多样性/探索,价值函数实现利用;分解使选择从指数复杂度降到 \(O(L_C \log L_C)\)
  3. 离线 RL 训练 (IQL):

    • 使用 Implicit Q-Learning 避免评估分布外的 state-action
    • \(\alpha\)-expectile 值估计近似最优 Q 值
    • 训练数据:真实人类评估数据 + 模拟用户数据 (30000+ 轨迹)
    • 设计动机:离线 RL 效率高,IQL 对分布外问题鲁棒

损失函数 / 训练策略

  • 用户模型:EM 交替优化(BT 偏好损失 + 评分回归损失 + 选择交叉熵)
  • 价值函数:IQL 损失 = TD 误差 + expectile 值损失
  • 两阶段数据:大规模单轮数据 (HPS v2, Pick-a-Pic, SAC) 预训练 + 人类多轮数据微调

实验关键数据

主实验 (人类评估, "Better/Same/Worse" 比例)

方法 Turn 2 Better Turn 3 Better Turn 4 Better Turn 5 Better
PASTA (full) ~50% ~55% ~50% ~48%
Gemini Flash 基线 ~40% ~38% ~35% ~32%

消融实验

配置 效果 说明
PASTA (真实+模拟数据) 最优 两种数据互补
PASTA (仅真实数据) 次优 数据量不足限制了泛化
PASTA (仅模拟数据) 略差于基线 模拟数据与真实分布有偏差
Gemini Flash (无RL) 基线 缺乏序列优化能力

用户模型评估

用户类型数 \(K\) Pick-a-Pic 准确率 HPS 排名相关
1 ~60% ~0.28
8 ~64% ~0.33
32 ~65% ~0.34
64 ~65% (饱和) ~0.35

关键发现

  • 用户类型数 \(K=8\) 即可捕捉主要偏好差异(动物、风景、食物、人像等)
  • 真实+模拟数据的组合训练最有效——模拟数据提供数量,真实数据提供质量
  • 对抽象 prompt (如"幸福的图像"),不同用户类型产生了明显不同的视觉风格
  • 代码执行率和多样性约束对探索至关重要

亮点与洞察

  • 问题形式化:将个性化 T2I 建模为 Latent Contextual MDP 非常自然且优雅
  • EM 用户建模:自动发现偏好聚类,无需显式标注用户类型
  • slate 价值分解\(O(L_C \log L_C)\) 复杂度的选择策略使大候选集可行
  • 首个开源多轮 T2I 数据集:对社区有长期价值

局限与展望

  • 人类评估可能受评估者群体偏差影响(缺乏 A/B 测试基础设施)
  • 模拟用户不完全反映真实行为
  • 生成图像的 prompt expansion 对用户不可见,限制了交互透明度
  • 价值函数基于 Gemma 2B (纯文本),无法利用视觉信息

相关工作与启发

  • EUREKA/L2R 系列用 LLM 做奖励设计
  • Diffusion model alignment (DPO for diffusion)
  • 推荐系统中的偏好引出 (preference elicitation) 理论
  • 启发:T2I 不应是一次性交互,而应是协作共创过程

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将个性化序列决策引入 T2I,EM 用户建模很巧妙
  • 实验充分度: ⭐⭐⭐⭐ 人类评估 + 模拟用户 + 消融 + 模型分析
  • 写作质量: ⭐⭐⭐⭐⭐ 问题定义、方法设计、实验评估全面系统
  • 价值: ⭐⭐⭐⭐⭐ 开源数据集 + 实用框架,对个性化生成有重要推动

相关论文