跳转至

Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning

会议: ECCV 2024
arXiv: 2407.06642
领域: 图像生成

一句话总结

提出基于确定性策略梯度(DPG)的强化学习框架用于个性化文本到图像生成,通过"前瞻"机制和DINO奖励函数捕获长期视觉一致性,大幅提升生成图像的视觉保真度。

研究背景与动机

  • 个性化文本到图像生成旨在根据少量参考图像(4-6张)生成保持个性化概念的新图像
  • 现有方法(TextInversion、DreamBooth、Custom Diffusion)采用简单的重建损失逐步优化,难以保证生成图像与参考图像之间的视觉结构一致性
  • 已有的RL方法(DPOK、DRaFT)使用人类反馈作为奖励,但在个性化场景中仅有4-6张参考图像,难以训练合适的奖励模型
  • 核心问题:如何设计灵活的框架,同时支持可微和不可微的目标函数,改善个性化生成的视觉保真度?

方法详解

整体框架

将扩散模型视为确定性策略(Deterministic Policy),通过确定性策略梯度(DPG)算法进行微调:

  • 状态空间:潜在状态 \(x_t\)、时间步 \(t\)、文本条件 \(\tau(y)\)
  • 动作空间:预测噪声 \(\hat{z}_t = \epsilon_\theta(x_t, t, \tau(y))\)
  • 策略函数:扩散模型 \(\epsilon_\theta(\cdot)\) 即为策略
  • Q函数\(Q_\phi(\cdot)\) 通过蒙特卡洛采样预测累积奖励

框架通过交替优化 Q 函数和扩散模型参数来训练。

关键设计

1. "前瞻"(Look Forward)机制

利用扩散过程的特性,从任意时间步 \(t\)\(x_t\) 前瞻预测最终生成结果 \(\hat{x}_{0,t}\)

\[\hat{x}_{0,t} = \frac{1}{\sqrt{\bar{\alpha}_t}}(x_t - \sqrt{1-\bar{\alpha}_t}\hat{z}_t)\]

直接在最终生成结果层面施加监督,而非仅在噪声空间逐步重建。这使得不同时间步可以隐式关注不同特征——早期关注结构轮廓,后期关注细节纹理。

2. DINO 复杂奖励

利用 DINO 自监督模型提取的视觉特征计算相似度作为奖励:

\[r(x_t) = -(1 - \hat{\kappa} \cdot \kappa)\]

其中 \(\hat{\kappa}\)\(\kappa\) 分别是生成图像和参考图像的 DINO 嵌入。通过可学习的 \(Q_\phi\) 来估计这种复杂奖励的累积值。

3. 累积奖励设计

引入折扣因子 \(\gamma\) 累积奖励,使 Q 函数建模从当前时间步到最终的长期回报:

\[Q_\phi(x_t, \epsilon_\theta) = \mathcal{L}(x_t, \tau(y), t) + \gamma Q_\phi(x_{t-1}, \epsilon_\theta)\]

损失函数

最终优化梯度结合重建奖励和 DINO 奖励:

\[\nabla_\theta \frac{1}{B}\sum_B(\lambda Q_\phi(x_t, \epsilon_\theta(x_t, t, \tau(y))) + (-\|\epsilon - \epsilon_\theta(x_t, t, \tau(y))\|^2))\]

其中 \(\lambda\) 控制 DINO 奖励的权重。Q 函数参数量仅 0.26M,相比 U-Net 的 859.40M 几乎可忽略。

实验关键数据

主实验

在 DreamBooth Benchmark(30个概念,15个类别)上的定量比较:

方法 DINO ↑ CLIP-I ↑ CLIP-T ↑
Custom Diffusion 0.649 0.712 0.321
Custom Diffusion + DINO奖励 0.640 0.715 0.320
Custom Diffusion + Look Forward 0.669 0.728 0.322
DreamBooth 0.694 0.762 0.282
DreamBooth + DINO奖励 0.723 0.783 0.270
DreamBooth + Look Forward 0.738 0.797 0.269

在 Custom Benchmark 上的评估:

方法 DINO ↑ CLIP-I ↑ CLIP-T ↑
DreamBooth 0.640 0.737 0.309
DreamBooth + LF 0.680 0.773 0.303
DreamBooth + DINO 0.653 0.753 0.310

消融实验

折扣因子 \(\gamma\) 的敏感性(clock 数据集)

设置 DINO ↑ CLIP-I ↑ CLIP-T ↑
DreamBooth baseline 0.644 0.707 0.239
不使用 \(\gamma\) 0.727 0.761 0.209
\(\gamma=0.9986\) 0.704 0.743 0.213

DINO 奖励权重 \(\lambda\) 的敏感性(robot_toy 数据集)

设置 DINO ↑ CLIP-I ↑ CLIP-T ↑
DreamBooth baseline 0.644 0.707 0.239
\(\lambda=0.1\) 0.704 0.743 0.213
\(\lambda=1\) 0.727 0.746 0.211

用户研究结果:

偏好 本方法 DreamBooth 相近
图像保真度 55.1% 12.0% 32.9%
文本保真度 19.6% 20.4% 60.0%

关键发现

  1. DreamBooth + Look Forward 在 DINO 指标上提升 6.3%(从 0.694 到 0.738),CLIP-I 提升 4.6%
  2. 存在图像保真度与文本对齐度之间的固有权衡——提升 DINO 奖励权重会牺牲文本对齐
  3. Q 函数收敛快且稳定,轻量级设计(0.26M 参数)不增加显著计算开销
  4. 用户研究中 55.1% 的用户认为本方法的图像保真度最佳,远超 DreamBooth 的 12%

亮点与洞察

  • RL 重新定义个性化生成范式:将扩散模型视为确定性策略,使得各种(可微/不可微)目标都可灵活接入
  • "前瞻"机制的优雅设计:利用扩散过程本身的数学性质从任意时间步前瞻到最终结果,建立长期视觉一致性
  • 极低额外开销:Q 函数仅 0.26M 参数,运行在潜在空间,计算开销几乎为零
  • 即插即用:可与 Custom Diffusion、DreamBooth 等基线方法直接结合

局限性

  • 在某些情况下可能过度强调视觉保真度,导致文本对齐能力下降
  • 依赖基线方法(如 DreamBooth)的文本编码器能力
  • 仅在 Stable Diffusion V1.4 上验证,未扩展到更大规模模型
  • 存在生成虚假图像的伦理风险(如人脸伪造、隐私泄露)

评分

  • 创新性:⭐⭐⭐⭐ — 首次将 DPG 框架引入个性化T2I
  • 实用性:⭐⭐⭐⭐ — 即插即用,轻量级
  • 表现力:⭐⭐⭐⭐ — 视觉保真度大幅领先
  • 综合评分:8/10

相关论文