SOLACE: Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards¶
会议: CVPR 2026
arXiv: 2603.00918
代码: https://wookiekim.github.io/SOLACE/
作者: Seungwook Kim, Minsu Cho (POSTECH / RLWRLD)
领域: 扩散模型 / 图像生成 / 后训练
关键词: 文本到图像, 自信心奖励, Flow-GRPO, 免外部奖励, 后训练对齐
一句话总结¶
用T2I模型自身的去噪自信心(对注入噪声的恢复精度)作为内在奖励替代外部奖励模型做后训练,在组合生成、文字渲染、文图对齐上获一致提升,且与外部奖励互补可缓解reward hacking。
背景与动机¶
T2I后训练(post-training)是提升生成质量的重要范式,通常依赖外部奖励信号(如PickScore、HPSv2等人类偏好模型)驱动强化学习。但这条路存在三个核心痛点: 1. 外部奖励定义困难:好图像需同时满足组合性、文字渲染、美学、文图对齐等多个弱相关标准,不同场景权重不同 2. Reward hacking:针对单一外部指标优化容易导致过拟合——目标分数上升但非目标能力退化(如PickScore涨了但组合性崩了) 3. 成本与复杂度:人类偏好奖励模型需大规模标注训练,训练时还要额外跑评价模型,流水线复杂
核心问题:T2I生成器自身能否提供有意义的后训练信号? 大规模预训练已赋予模型对真实图像分布和文图对齐的强先验——高质量输出时模型应当更"自信"。
核心思想¶
受Score Distillation Sampling (SDS)启发——SDS用预训练T2I模型作为text-to-3D的critic——SOLACE将同一思想内化:让T2I模型critique自己的生成。 具体做法是给模型生成的潜表示重新注入噪声,然后测量模型恢复该噪声的精度。恢复越准确 → 模型对自己输出越"自信" → 奖励越高。
方法详解¶
整体流程¶
给定文本prompt \(c\): 1. 采样 \(G=16\) 组独立反向轨迹,得到终端潜表示 \(\{z_0^{(i)}\}_{i=1}^G\) 2. 抽取 \(K=8\) 个共享噪声探针 \(\epsilon^{(m)} \sim \mathcal{N}(0,I)\),使用反义配对保证均值为零 3. 对每个 \(z_0^{(i)}\) 在多个时间步 \(t \in \mathcal{T}\) 重新加噪:\(z_t^{(i,m)} = (1-t)z_0^{(i)} + t\epsilon^{(m)}\) 4. 模型预测速度场 \(v_\theta(z_t^{(i,m)}, t, c)\),恢复噪声估计 \(\hat{\epsilon}_\theta = v_\theta + z_0^{(i)}\) 5. 计算MSE重建误差,转换为自信心奖励,送入Flow-GRPO优化
自信心奖励公式¶
对每个生成样本 \(z_0^{(i)}\): $\(\text{MSE}_{i,t} = \frac{1}{K}\sum_{m=1}^K \|\hat{\epsilon}_\theta(z_t^{(i,m)}, t, c) - \epsilon^{(m)}\|_2^2\)$ $\(S_{i,t} = -\log(\text{MSE}_{i,t} + \delta)\)$ $\(R_{\text{SOLACE}}(z_0^{(i)}, c) = \frac{1}{\sum_{t\in\mathcal{T}} w(t)} \sum_{t\in\mathcal{T}} w(t) S_{i,t}\)$
负对数变换的三个好处:(1) 近似高斯对数似然;(2) 压缩异常值;(3) 跨时间步可加性。实践中 \(w(t)=1\)。
关键稳定化设计¶
- 后缀时间步训练(\(\rho=0.6\)):仅优化后60%去噪步的轨迹,避免模型将潜表示推向噪声容易预测的退化区域导致训练崩溃
- 自信心计算不用CFG:CFG构造混合场 \(v_\text{cfg} = v_\text{uncond} + s(v_\text{cond} - v_\text{uncond})\),优化的是引导代理而非基础条件策略,反而引发hacking
- 在线计算 > 离线计算:用正在训练的 \(\pi_\theta\) 而非冻结的 \(\pi_\text{ref}\) 计算自信心,性能更好——随着模型改进,自信心评估也变得更准确
- 去噪步数缩减:训练时用10步(推理用40步),不牺牲质量但大幅加速
训练配置¶
- 优化器:AdamW,lr=3e-4
- LoRA:rank=32,α=64
- KL正则:β=0.04
- GRPO group size:G=16
- 噪声探针数:K=8(反义配对)
- 训练迭代:2000次
- 分辨率:512×512
- 推理CFG:7.0
- 硬件:8×NVIDIA RTX PRO 6000 Blackwell
实验结果¶
主实验(SD3.5-M基线)¶
| 模型 | GenEval↑ | OCR↑ | CLIPScore↑ | Aesthetic↑ | PickScore↑ | HPSv2↑ | ImageReward↑ |
|---|---|---|---|---|---|---|---|
| SD3.5-M | 0.65 | 0.61 | 0.282 | 5.36 | 22.34 | 0.279 | 0.84 |
| +SOLACE | 0.71 | 0.67 | 0.288 | 5.39 | 22.41 | 0.278 | 0.87 |
| SD3.5-L | 0.71 | 0.68 | 0.289 | 5.50 | 22.91 | 0.288 | 0.96 |
关键发现:SOLACE让2.5B的SD3.5-M在GenEval/OCR/CLIPScore上几乎追平7.1B的SD3.5-L(不到1/3参数量)。
SOLACE + 外部奖励互补¶
| 模型 | GenEval↑ | OCR↑ | CLIPScore↑ | PickScore↑ |
|---|---|---|---|---|
| SD3.5-M + FlowGRPO(GenEval) | 0.95 | 0.65 | 0.293 | 22.51 |
| SD3.5-M + FlowGRPO(GenEval) + SOLACE | 0.92 | 0.71 | 0.294 | 22.50 |
| SD3.5-M + FlowGRPO(PickScore) | 0.54 | 0.68 | 0.278 | 23.50 |
| SD3.5-M + FlowGRPO(PickScore) + SOLACE | 0.77 | 0.70 | 0.287 | 22.73 |
在FlowGRPO外部奖励后训练的基础上叠加SOLACE:组合性、文字渲染、对齐均改善,目标外部指标仅轻微下降——内在与外在奖励互补,且缓解reward hacking。特别是PickScore post-training导致GenEval从0.65暴跌至0.54,叠加SOLACE后恢复至0.77。
消融实验¶
- 噪声探针数K:K=4/8/16差异不大,K=8略优且计算效率合理
- CFG用于自信心:用CFG反而掉分(GenEval 0.68 vs 0.71),验证了不应优化引导代理
- 在线vs离线:在线全面优于离线(GenEval 0.71 vs 0.69,OCR 0.67 vs 0.61)
- 训练崩溃条件:(1) \(\rho > 0.6\);(2) 采样候选时不用CFG → 产生无纹理图像
用户研究¶
在PartiPrompts和HPSv2 prompt上收集约1800份回答(20名参与者),SOLACE在视觉真实感/吸引力和文图对齐两方面均一致优于基线SD3.5-M。
亮点 / 我学到了什么¶
- 预训练隐含质量先验:模型的去噪能力本身就编码了"什么是好图像"的知识,自信心是可利用的内在信号
- SDS→自我critique:SDS用T2I模型评价3D生成,SOLACE将同一思路内化为自评——优雅的方法论迁移
- 内在+外在互补:两类信号关注不同维度(自信心→组合性/文字;外部→人类偏好),叠加使用效果最佳
- 稳定化设计精巧:后缀窗口、不用CFG、在线计算三个设计缺一不可,否则崩溃或效果差
- 潜空间操作:奖励完全在潜空间计算,无需解码到像素空间,省去了decoder开销
局限性 / 可改进方向¶
- 与人类偏好指标相关性弱,无法单独靶向特定对齐目标(如美学)
- 仅验证了flow matching架构(SD3.5),对autoregressive T2I模型适用性未知
- 未来可探索:(1) 时序/多视角一致性扩展到视频和3D生成;(2) 解耦和校准内在信号以实现任务级奖励塑形
与相关工作的对比¶
- vs FlowGRPO:外部奖励有靶向性但易reward hacking且需额外模型;SOLACE免外部依赖但无法精确靶向
- vs DPO/ReFL:需偏好配对数据或可微奖励;SOLACE完全无监督
- vs Intuitor (LLM):首次将自信心奖励从LLM离散token扩展到T2I连续去噪轨迹,非平凡迁移
- vs SDS:SDS用预训练模型评估外部生成(3D);SOLACE用当前模型评估自身生成(自评)
与我的研究方向的关联¶
内在信号后训练的思路有跨领域推广价值——检测/分割模型同样经过大规模预训练,是否也可提取类似的"自信心"信号做无监督后训练?
评分¶
- 新颖性: ⭐⭐⭐⭐ 自信心作为T2I内在奖励新颖且有原理性支撑,但LLM领域Intuitor有先例
- 实验充分度: ⭐⭐⭐⭐ 多基准(GenEval/OCR/6个偏好指标)+用户研究+消融+多模型(SD3.5-M/L)+互补实验
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法推导严谨,消融实验系统
- 对我的价值: ⭐⭐⭐ 图像生成非核心方向,但"内在信号后训练"的范式值得关注