Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning¶
会议: ECCV 2024
arXiv: 2407.06642
代码: GitHub
领域: 图像生成 / 个性化Text-to-Image
关键词: personalized T2I, reinforcement learning, deterministic policy gradient, look forward, DINO reward
一句话总结¶
将个性化T2I生成建模为确定性策略梯度(DPG)框架——扩散模型作为策略、去噪步骤作为动作——引入"向前看"机制捕获长期视觉一致性和DINO相似度奖励,在DreamBooth基准上DINO得分从0.694提升至0.738(+6.3%),CLIP-I从0.762提升至0.797(+4.6%)。
研究背景与动机¶
领域现状:个性化T2I(Textual Inversion、DreamBooth、Custom Diffusion)通过微调扩散模型嵌入个人概念(宠物、朋友等),但普遍存在视觉细节丢失问题——生成的物体色彩、纹理、结构与参考图像不一致。
现有痛点:(1) 现有方法使用简单的逐步重建损失(\(\epsilon\)-prediction),无法直接优化最终生成结果的视觉一致性;(2) 不同去噪时间步关注不同特征(早期关注结构、后期关注细节),但逐步重建损失对此无感知;(3) 通用T2I的RL方法(DPOK、DRaFT)使用人类偏好或美学奖励,但个性化场景仅有4~6张参考图,难以训练专用奖励模型。
核心矛盾:逐步重建损失无法捕获扩散过程的长期视觉一致性,特别是最终生成图像与参考图像之间的结构和细节对应。
本文要解决什么? 设计灵活的RL框架,利用可微/不可微的各种目标函数改善个性化T2I的视觉保真度。
切入角度:将扩散模型视为确定性策略,引入Q函数学习累积奖励,支持"向前看"到最终生成结果。
核心idea一句话:通过DPG框架中的Q函数学习从当前时间步"向前看"到 \(\hat{x}_{0,t}\) 的累积奖励 \(\frac{1-\bar{\alpha}_t}{\bar{\alpha}_t}\|\hat{z}_t - z_t\|^2\),并结合DINO相似度奖励直接优化视觉一致性。
方法详解¶
整体框架¶
参考图像集 → 扩散过程加噪 → U-Net策略预测噪声 → "向前看"得到 \(\hat{x}_{0,t}\) → 解码为图像 → DINO编码器提取特征 → 计算奖励 → Q函数学习累积奖励 → 梯度传播优化U-Net策略。
关键设计¶
-
确定性策略梯度(DPG)框架
- 状态:\(\{x_t, t, \tau(y)\}\)(潜在状态+时间步+文本条件)
- 动作:\(\hat{z}_t = \epsilon_\theta(x_t, t, \tau(y))\)(预测噪声)
- 策略:扩散模型 \(\epsilon_\theta\)
- Q函数 \(Q_\phi\) 估计累积奖励,优化目标 \(\max_\theta \mathbb{E}[Q_\phi(x_t, \epsilon_\theta(x_t, t, \tau(y)))]\)
- 设计动机:RL的Q学习天然支持长期累积奖励,弥补逐步重建损失的短视问题
-
"向前看"(Look Forward)机制
- 在任意时间步 \(t\) 预测最终结果:\(\hat{x}_{0,t} = \frac{1}{\sqrt{\bar{\alpha}_t}}(x_t - \sqrt{1-\bar{\alpha}_t}\hat{z}_t)\)
- 重写奖励为 \(\|\hat{x}_{0,t} - x_0\|^2 = \frac{1-\bar{\alpha}_t}{\bar{\alpha}_t}\|\hat{z}_t - z_t\|^2\)——带时间步相关权重的重建损失
- Q函数学习累积奖励:\(Q_\phi(x_t, \cdot) = \mathcal{L}(x_t, \cdot) + \gamma Q_\phi(x_{t-1}, \cdot)\)
- 设计动机:不同时间步的"向前看"结果反映不同层次的特征(早期=结构、后期=细节),Q函数隐式学习关注不同层次
-
DINO奖励
- 解码 \(\hat{x}_{0,t}\) 为图像 \(\hat{I} = \mathcal{D}(\hat{x}_{0,t})\),DINO编码器提取特征 \(\hat{\kappa}\)
- 奖励 \(r(x_t) = -(1 - \hat{\kappa} \cdot \kappa)\)(与参考图像DINO特征的余弦距离)
- 结合重建奖励:\(\nabla_\theta \frac{1}{B}\sum_B(\lambda Q_\phi + (-\|\epsilon - \epsilon_\theta\|^2))\)
- 设计动机:DINO善于捕获物体独特视觉特征,作为个性化奖励信号比人类偏好更适合
损失函数 / 训练策略¶
Q函数和U-Net交替优化(Algorithm 1)。基于DreamBooth基线,Stable Diffusion V1.4,Q函数参数量仅0.26M(vs U-Net 859.4M)。训练在32G V100上进行。
实验关键数据¶
主实验¶
DreamBooth基准(30概念,25提示)上的对比:
| 方法 | DINO↑ | CLIP-I↑ | CLIP-T↑ |
|---|---|---|---|
| Custom Diffusion | 0.649 | 0.712 | 0.321 |
| Custom Diffusion + DINO reward | 0.640 | 0.715 | 0.320 |
| Custom Diffusion + Look Forward | 0.669 | 0.728 | 0.322 |
| DreamBooth | 0.694 | 0.762 | 0.282 |
| DreamBooth + DINO reward | 0.723 | 0.783 | 0.270 |
| DreamBooth + Look Forward | 0.738 | 0.797 | 0.269 |
Custom基准上的对比:
| 方法 | DINO↑ | CLIP-I↑ | CLIP-T↑ |
|---|---|---|---|
| DreamBooth | 0.640 | 0.737 | 0.309 |
| DreamBooth + Look Forward | 0.680 | 0.773 | 0.303 |
| DreamBooth + DINO reward | 0.653 | 0.753 | 0.310 |
消融实验¶
| 消融项 | DINO↑ | CLIP-I↑ | CLIP-T↑ |
|---|---|---|---|
| DreamBooth基线 | 0.644 | 0.707 | 0.239 |
| w/o 折扣率γ | 0.727 | 0.761 | 0.209 |
| γ=0.9986 | 0.704 | 0.743 | 0.213 |
| λ=0.1 (DINO权重) | 0.704 | 0.743 | 0.213 |
| λ=1 (DINO权重) | 0.727 | 0.746 | 0.211 |
用户研究:
| 偏好 | Ours | DreamBooth | 相似 |
|---|---|---|---|
| 图像保真度 | 55.1% | 12.0% | 32.9% |
| 文本保真度 | 19.6% | 20.4% | 60.0% |
关键发现¶
- Look Forward带来最大提升:DINO从0.694→0.738(+6.3%),CLIP-I从0.762→0.797(+4.6%)
- DINO奖励在DreamBooth基线上DINO提升4.2%(0.694→0.723)
- 图像保真度/文本保真度存在固有trade-off,但文本保真度下降不大(0.282→0.269)
- Q网络参数量极小(0.26M),几乎不增加计算开销
- 55.1%用户偏好本方法的图像保真度(vs 12.0% DreamBooth)
亮点与洞察¶
- DPG框架将扩散过程优雅地映射为RL问题,Q函数学习长期累积奖励
- "向前看"机制的推导简洁:等价于带时间步权重的重建损失,但通过Q函数实现累积
- 框架高度灵活:可插入任意可微/不可微奖励函数(DINO只是一个实例)
- Q网络仅0.26M参数,轻量级实现低成本
局限性 / 可改进方向¶
- 某些场景可能过度强调视觉保真度导致文本对齐下降
- 仅用DINO作为奖励示例,未探索其他更强的视觉相似度度量(如DINOv2、SSIM等)
- 基于DreamBooth基线,受Stable Diffusion V1.4生成能力和文本编码器限制
- 未与同期RL-based T2I方法(如DRaFT)在个性化场景下直接对比
相关工作与启发¶
- vs DreamBooth:DreamBooth仅用逐步重建损失,本文通过DPG框架引入长期视觉一致性
- vs DRaFT:DRaFT基于可微奖励直接反传梯度,本文通过Q函数支持更灵活的奖励
- vs DPOK:DPOK用随机策略梯度+KL正则化做通用T2I,本文用确定性策略梯度做个性化
- vs Custom Diffusion:Custom Diffusion仅微调cross-attention,视觉保真度较弱;加Look Forward可提升
评分¶
- 新颖性: ⭐⭐⭐⭐ 将扩散过程建模为DPG是elegant的理论框架
- 实验充分度: ⭐⭐⭐⭐ DreamBooth+Custom基准+用户研究+消融实验
- 写作质量: ⭐⭐⭐ 方法部分推导较多但整体清晰
- 价值: ⭐⭐⭐⭐ DINO提升6.3%,用户偏好55.1%,实际效果显著
相关论文¶
- [ECCV 2024] Enhancing Diffusion Models with Text-Encoder Reinforcement Learning
- [ECCV 2024] OMG: Occlusion-friendly Personalized Multi-concept Generation in Diffusion Models
- [ECCV 2024] Latent Guard: a Safety Framework for Text-to-Image Generation
- [ECCV 2024] Pixel-Aware Stable Diffusion for Realistic Image Super-Resolution and Personalized Stylization
- [ECCV 2024] LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning