Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning¶
会议: ECCV 2024
arXiv: 2407.06642
领域: 图像生成
一句话总结¶
提出基于确定性策略梯度(DPG)的强化学习框架用于个性化文本到图像生成,通过"前瞻"机制和DINO奖励函数捕获长期视觉一致性,大幅提升生成图像的视觉保真度。
研究背景与动机¶
- 个性化文本到图像生成旨在根据少量参考图像(4-6张)生成保持个性化概念的新图像
- 现有方法(TextInversion、DreamBooth、Custom Diffusion)采用简单的重建损失逐步优化,难以保证生成图像与参考图像之间的视觉结构一致性
- 已有的RL方法(DPOK、DRaFT)使用人类反馈作为奖励,但在个性化场景中仅有4-6张参考图像,难以训练合适的奖励模型
- 核心问题:如何设计灵活的框架,同时支持可微和不可微的目标函数,改善个性化生成的视觉保真度?
方法详解¶
整体框架¶
将扩散模型视为确定性策略(Deterministic Policy),通过确定性策略梯度(DPG)算法进行微调:
- 状态空间:潜在状态 \(x_t\)、时间步 \(t\)、文本条件 \(\tau(y)\)
- 动作空间:预测噪声 \(\hat{z}_t = \epsilon_\theta(x_t, t, \tau(y))\)
- 策略函数:扩散模型 \(\epsilon_\theta(\cdot)\) 即为策略
- Q函数:\(Q_\phi(\cdot)\) 通过蒙特卡洛采样预测累积奖励
框架通过交替优化 Q 函数和扩散模型参数来训练。
关键设计¶
1. "前瞻"(Look Forward)机制
利用扩散过程的特性,从任意时间步 \(t\) 的 \(x_t\) 前瞻预测最终生成结果 \(\hat{x}_{0,t}\):
直接在最终生成结果层面施加监督,而非仅在噪声空间逐步重建。这使得不同时间步可以隐式关注不同特征——早期关注结构轮廓,后期关注细节纹理。
2. DINO 复杂奖励
利用 DINO 自监督模型提取的视觉特征计算相似度作为奖励:
其中 \(\hat{\kappa}\) 和 \(\kappa\) 分别是生成图像和参考图像的 DINO 嵌入。通过可学习的 \(Q_\phi\) 来估计这种复杂奖励的累积值。
3. 累积奖励设计
引入折扣因子 \(\gamma\) 累积奖励,使 Q 函数建模从当前时间步到最终的长期回报:
损失函数¶
最终优化梯度结合重建奖励和 DINO 奖励:
其中 \(\lambda\) 控制 DINO 奖励的权重。Q 函数参数量仅 0.26M,相比 U-Net 的 859.40M 几乎可忽略。
实验关键数据¶
主实验¶
在 DreamBooth Benchmark(30个概念,15个类别)上的定量比较:
| 方法 | DINO ↑ | CLIP-I ↑ | CLIP-T ↑ |
|---|---|---|---|
| Custom Diffusion | 0.649 | 0.712 | 0.321 |
| Custom Diffusion + DINO奖励 | 0.640 | 0.715 | 0.320 |
| Custom Diffusion + Look Forward | 0.669 | 0.728 | 0.322 |
| DreamBooth | 0.694 | 0.762 | 0.282 |
| DreamBooth + DINO奖励 | 0.723 | 0.783 | 0.270 |
| DreamBooth + Look Forward | 0.738 | 0.797 | 0.269 |
在 Custom Benchmark 上的评估:
| 方法 | DINO ↑ | CLIP-I ↑ | CLIP-T ↑ |
|---|---|---|---|
| DreamBooth | 0.640 | 0.737 | 0.309 |
| DreamBooth + LF | 0.680 | 0.773 | 0.303 |
| DreamBooth + DINO | 0.653 | 0.753 | 0.310 |
消融实验¶
折扣因子 \(\gamma\) 的敏感性(clock 数据集):
| 设置 | DINO ↑ | CLIP-I ↑ | CLIP-T ↑ |
|---|---|---|---|
| DreamBooth baseline | 0.644 | 0.707 | 0.239 |
| 不使用 \(\gamma\) | 0.727 | 0.761 | 0.209 |
| \(\gamma=0.9986\) | 0.704 | 0.743 | 0.213 |
DINO 奖励权重 \(\lambda\) 的敏感性(robot_toy 数据集):
| 设置 | DINO ↑ | CLIP-I ↑ | CLIP-T ↑ |
|---|---|---|---|
| DreamBooth baseline | 0.644 | 0.707 | 0.239 |
| \(\lambda=0.1\) | 0.704 | 0.743 | 0.213 |
| \(\lambda=1\) | 0.727 | 0.746 | 0.211 |
用户研究结果:
| 偏好 | 本方法 | DreamBooth | 相近 |
|---|---|---|---|
| 图像保真度 | 55.1% | 12.0% | 32.9% |
| 文本保真度 | 19.6% | 20.4% | 60.0% |
关键发现¶
- DreamBooth + Look Forward 在 DINO 指标上提升 6.3%(从 0.694 到 0.738),CLIP-I 提升 4.6%
- 存在图像保真度与文本对齐度之间的固有权衡——提升 DINO 奖励权重会牺牲文本对齐
- Q 函数收敛快且稳定,轻量级设计(0.26M 参数)不增加显著计算开销
- 用户研究中 55.1% 的用户认为本方法的图像保真度最佳,远超 DreamBooth 的 12%
亮点与洞察¶
- RL 重新定义个性化生成范式:将扩散模型视为确定性策略,使得各种(可微/不可微)目标都可灵活接入
- "前瞻"机制的优雅设计:利用扩散过程本身的数学性质从任意时间步前瞻到最终结果,建立长期视觉一致性
- 极低额外开销:Q 函数仅 0.26M 参数,运行在潜在空间,计算开销几乎为零
- 即插即用:可与 Custom Diffusion、DreamBooth 等基线方法直接结合
局限性¶
- 在某些情况下可能过度强调视觉保真度,导致文本对齐能力下降
- 依赖基线方法(如 DreamBooth)的文本编码器能力
- 仅在 Stable Diffusion V1.4 上验证,未扩展到更大规模模型
- 存在生成虚假图像的伦理风险(如人脸伪造、隐私泄露)
评分¶
- 创新性:⭐⭐⭐⭐ — 首次将 DPG 框架引入个性化T2I
- 实用性:⭐⭐⭐⭐ — 即插即用,轻量级
- 表现力:⭐⭐⭐⭐ — 视觉保真度大幅领先
- 综合评分:8/10
相关论文¶
- [ECCV 2024] OMG: Occlusion-friendly Personalized Multi-concept Generation in Diffusion Models
- [ECCV 2024] Latent Guard: a Safety Framework for Text-to-Image Generation
- [ECCV 2024] Pixel-Aware Stable Diffusion for Realistic Image Super-Resolution and Personalized Stylization
- [ECCV 2024] LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning
- [ECCV 2024] LCM-Lookahead for Encoder-based Text-to-Image Personalization