Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning¶

会议: ECCV 2024
arXiv: 2407.06642
领域: 图像生成

一句话总结¶

提出基于确定性策略梯度（DPG）的强化学习框架用于个性化文本到图像生成，通过"前瞻"机制和DINO奖励函数捕获长期视觉一致性，大幅提升生成图像的视觉保真度。

研究背景与动机¶

个性化文本到图像生成旨在根据少量参考图像（4-6张）生成保持个性化概念的新图像
现有方法（TextInversion、DreamBooth、Custom Diffusion）采用简单的重建损失逐步优化，难以保证生成图像与参考图像之间的视觉结构一致性
已有的RL方法（DPOK、DRaFT）使用人类反馈作为奖励，但在个性化场景中仅有4-6张参考图像，难以训练合适的奖励模型
核心问题：如何设计灵活的框架，同时支持可微和不可微的目标函数，改善个性化生成的视觉保真度？

方法详解¶

整体框架¶

将扩散模型视为确定性策略（Deterministic Policy），通过确定性策略梯度（DPG）算法进行微调：

状态空间：潜在状态 \(x_t\)、时间步 \(t\)、文本条件 \(\tau(y)\)
动作空间：预测噪声 \(\hat{z}_t = \epsilon_\theta(x_t, t, \tau(y))\)
策略函数：扩散模型 \(\epsilon_\theta(\cdot)\) 即为策略
Q函数：\(Q_\phi(\cdot)\) 通过蒙特卡洛采样预测累积奖励

框架通过交替优化 Q 函数和扩散模型参数来训练。

关键设计¶

1. "前瞻"（Look Forward）机制

利用扩散过程的特性，从任意时间步 \(t\) 的 \(x_t\) 前瞻预测最终生成结果 \(\hat{x}_{0,t}\)：

\[\hat{x}_{0,t} = \frac{1}{\sqrt{\bar{\alpha}_t}}(x_t - \sqrt{1-\bar{\alpha}_t}\hat{z}_t)\]

直接在最终生成结果层面施加监督，而非仅在噪声空间逐步重建。这使得不同时间步可以隐式关注不同特征——早期关注结构轮廓，后期关注细节纹理。

2. DINO 复杂奖励

利用 DINO 自监督模型提取的视觉特征计算相似度作为奖励：

\[r(x_t) = -(1 - \hat{\kappa} \cdot \kappa)\]

其中 \(\hat{\kappa}\) 和 \(\kappa\) 分别是生成图像和参考图像的 DINO 嵌入。通过可学习的 \(Q_\phi\) 来估计这种复杂奖励的累积值。

3. 累积奖励设计

引入折扣因子 \(\gamma\) 累积奖励，使 Q 函数建模从当前时间步到最终的长期回报：

\[Q_\phi(x_t, \epsilon_\theta) = \mathcal{L}(x_t, \tau(y), t) + \gamma Q_\phi(x_{t-1}, \epsilon_\theta)\]

损失函数¶

最终优化梯度结合重建奖励和 DINO 奖励：

\[\nabla_\theta \frac{1}{B}\sum_B(\lambda Q_\phi(x_t, \epsilon_\theta(x_t, t, \tau(y))) + (-\|\epsilon - \epsilon_\theta(x_t, t, \tau(y))\|^2))\]

其中 \(\lambda\) 控制 DINO 奖励的权重。Q 函数参数量仅 0.26M，相比 U-Net 的 859.40M 几乎可忽略。

实验关键数据¶

主实验¶

在 DreamBooth Benchmark（30个概念，15个类别）上的定量比较：

方法	DINO ↑	CLIP-I ↑	CLIP-T ↑
Custom Diffusion	0.649	0.712	0.321
Custom Diffusion + DINO奖励	0.640	0.715	0.320
Custom Diffusion + Look Forward	0.669	0.728	0.322
DreamBooth	0.694	0.762	0.282
DreamBooth + DINO奖励	0.723	0.783	0.270
DreamBooth + Look Forward	0.738	0.797	0.269

在 Custom Benchmark 上的评估：

方法	DINO ↑	CLIP-I ↑	CLIP-T ↑
DreamBooth	0.640	0.737	0.309
DreamBooth + LF	0.680	0.773	0.303
DreamBooth + DINO	0.653	0.753	0.310

消融实验¶

折扣因子 \(\gamma\) 的敏感性（clock 数据集）：

设置	DINO ↑	CLIP-I ↑	CLIP-T ↑
DreamBooth baseline	0.644	0.707	0.239
不使用 \(\gamma\)	0.727	0.761	0.209
\(\gamma=0.9986\)	0.704	0.743	0.213

DINO 奖励权重 \(\lambda\) 的敏感性（robot_toy 数据集）：

设置	DINO ↑	CLIP-I ↑	CLIP-T ↑
DreamBooth baseline	0.644	0.707	0.239
\(\lambda=0.1\)	0.704	0.743	0.213
\(\lambda=1\)	0.727	0.746	0.211

用户研究结果：

偏好	本方法	DreamBooth	相近
图像保真度	55.1%	12.0%	32.9%
文本保真度	19.6%	20.4%	60.0%

关键发现¶

DreamBooth + Look Forward 在 DINO 指标上提升 6.3%（从 0.694 到 0.738），CLIP-I 提升 4.6%
存在图像保真度与文本对齐度之间的固有权衡——提升 DINO 奖励权重会牺牲文本对齐
Q 函数收敛快且稳定，轻量级设计（0.26M 参数）不增加显著计算开销
用户研究中 55.1% 的用户认为本方法的图像保真度最佳，远超 DreamBooth 的 12%

亮点与洞察¶

RL 重新定义个性化生成范式：将扩散模型视为确定性策略，使得各种（可微/不可微）目标都可灵活接入
"前瞻"机制的优雅设计：利用扩散过程本身的数学性质从任意时间步前瞻到最终结果，建立长期视觉一致性
极低额外开销：Q 函数仅 0.26M 参数，运行在潜在空间，计算开销几乎为零
即插即用：可与 Custom Diffusion、DreamBooth 等基线方法直接结合

局限性¶

在某些情况下可能过度强调视觉保真度，导致文本对齐能力下降
依赖基线方法（如 DreamBooth）的文本编码器能力
仅在 Stable Diffusion V1.4 上验证，未扩展到更大规模模型
存在生成虚假图像的伦理风险（如人脸伪造、隐私泄露）

评分¶

创新性：⭐⭐⭐⭐ — 首次将 DPG 框架引入个性化T2I
实用性：⭐⭐⭐⭐ — 即插即用，轻量级
表现力：⭐⭐⭐⭐ — 视觉保真度大幅领先
综合评分：8/10