SOLACE: Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards¶

会议: CVPR 2026
arXiv: 2603.00918
代码: https://wookiekim.github.io/SOLACE/
作者: Seungwook Kim, Minsu Cho (POSTECH / RLWRLD)
领域: 扩散模型 / 图像生成 / 后训练
关键词: 文本到图像, 自信心奖励, Flow-GRPO, 免外部奖励, 后训练对齐

一句话总结¶

用T2I模型自身的去噪自信心（对注入噪声的恢复精度）作为内在奖励替代外部奖励模型做后训练，在组合生成、文字渲染、文图对齐上获一致提升，且与外部奖励互补可缓解reward hacking。

背景与动机¶

T2I后训练（post-training）是提升生成质量的重要范式，通常依赖外部奖励信号（如PickScore、HPSv2等人类偏好模型）驱动强化学习。但这条路存在三个核心痛点： 1. 外部奖励定义困难：好图像需同时满足组合性、文字渲染、美学、文图对齐等多个弱相关标准，不同场景权重不同 2. Reward hacking：针对单一外部指标优化容易导致过拟合——目标分数上升但非目标能力退化（如PickScore涨了但组合性崩了） 3. 成本与复杂度：人类偏好奖励模型需大规模标注训练，训练时还要额外跑评价模型，流水线复杂

核心问题：T2I生成器自身能否提供有意义的后训练信号？ 大规模预训练已赋予模型对真实图像分布和文图对齐的强先验——高质量输出时模型应当更"自信"。

核心思想¶

受Score Distillation Sampling (SDS)启发——SDS用预训练T2I模型作为text-to-3D的critic——SOLACE将同一思想内化：让T2I模型critique自己的生成。具体做法是给模型生成的潜表示重新注入噪声，然后测量模型恢复该噪声的精度。恢复越准确 → 模型对自己输出越"自信" → 奖励越高。

方法详解¶

整体流程¶

给定文本prompt $c$： 1. 采样 $G=16$ 组独立反向轨迹，得到终端潜表示 $\{z_0^{(i)}\}_{i=1}^G$ 2. 抽取 $K=8$ 个共享噪声探针 $\epsilon^{(m)} \sim \mathcal{N}(0,I)$，使用反义配对保证均值为零 3. 对每个 $z_0^{(i)}$ 在多个时间步 $t \in \mathcal{T}$ 重新加噪：$z_t^{(i,m)} = (1-t)z_0^{(i)} + t\epsilon^{(m)}$ 4. 模型预测速度场 $v_\theta(z_t^{(i,m)}, t, c)$，恢复噪声估计 $\hat{\epsilon}_\theta = v_\theta + z_0^{(i)}$ 5. 计算MSE重建误差，转换为自信心奖励，送入Flow-GRPO优化

自信心奖励公式¶

对每个生成样本 $z_0^{(i)}$： $$\text{MSE}_{i,t} = \frac{1}{K}\sum_{m=1}^K \|\hat{\epsilon}_\theta(z_t^{(i,m)}, t, c) - \epsilon^{(m)}\|_2^2$$ $$S_{i,t} = -\log(\text{MSE}_{i,t} + \delta)$$ $$R_{\text{SOLACE}}(z_0^{(i)}, c) = \frac{1}{\sum_{t\in\mathcal{T}} w(t)} \sum_{t\in\mathcal{T}} w(t) S_{i,t}$$

负对数变换的三个好处：(1) 近似高斯对数似然；(2) 压缩异常值；(3) 跨时间步可加性。实践中 $w(t)=1$。

关键稳定化设计¶

后缀时间步训练（$\rho=0.6$）：仅优化后60%去噪步的轨迹，避免模型将潜表示推向噪声容易预测的退化区域导致训练崩溃
自信心计算不用CFG：CFG构造混合场 $v_\text{cfg} = v_\text{uncond} + s(v_\text{cond} - v_\text{uncond})$，优化的是引导代理而非基础条件策略，反而引发hacking
在线计算 > 离线计算：用正在训练的 $\pi_\theta$ 而非冻结的 $\pi_\text{ref}$ 计算自信心，性能更好——随着模型改进，自信心评估也变得更准确
去噪步数缩减：训练时用10步（推理用40步），不牺牲质量但大幅加速

训练配置¶

优化器：AdamW，lr=3e-4
LoRA：rank=32，α=64
KL正则：β=0.04
GRPO group size：G=16
噪声探针数：K=8（反义配对）
训练迭代：2000次
分辨率：512×512
推理CFG：7.0
硬件：8×NVIDIA RTX PRO 6000 Blackwell

实验结果¶

主实验（SD3.5-M基线）¶

模型	GenEval↑	OCR↑	CLIPScore↑	Aesthetic↑	PickScore↑	HPSv2↑	ImageReward↑
SD3.5-M	0.65	0.61	0.282	5.36	22.34	0.279	0.84
+SOLACE	0.71	0.67	0.288	5.39	22.41	0.278	0.87
SD3.5-L	0.71	0.68	0.289	5.50	22.91	0.288	0.96

关键发现：SOLACE让2.5B的SD3.5-M在GenEval/OCR/CLIPScore上几乎追平7.1B的SD3.5-L（不到1/3参数量）。

SOLACE + 外部奖励互补¶

模型	GenEval↑	OCR↑	CLIPScore↑	PickScore↑
SD3.5-M + FlowGRPO(GenEval)	0.95	0.65	0.293	22.51
SD3.5-M + FlowGRPO(GenEval) + SOLACE	0.92	0.71	0.294	22.50
SD3.5-M + FlowGRPO(PickScore)	0.54	0.68	0.278	23.50
SD3.5-M + FlowGRPO(PickScore) + SOLACE	0.77	0.70	0.287	22.73

在FlowGRPO外部奖励后训练的基础上叠加SOLACE：组合性、文字渲染、对齐均改善，目标外部指标仅轻微下降——内在与外在奖励互补，且缓解reward hacking。特别是PickScore post-training导致GenEval从0.65暴跌至0.54，叠加SOLACE后恢复至0.77。

消融实验¶

噪声探针数K：K=4/8/16差异不大，K=8略优且计算效率合理
CFG用于自信心：用CFG反而掉分（GenEval 0.68 vs 0.71），验证了不应优化引导代理
在线vs离线：在线全面优于离线（GenEval 0.71 vs 0.69，OCR 0.67 vs 0.61）
训练崩溃条件：(1) $\rho > 0.6$；(2) 采样候选时不用CFG → 产生无纹理图像

用户研究¶

在PartiPrompts和HPSv2 prompt上收集约1800份回答（20名参与者），SOLACE在视觉真实感/吸引力和文图对齐两方面均一致优于基线SD3.5-M。

亮点 / 我学到了什么¶

预训练隐含质量先验：模型的去噪能力本身就编码了"什么是好图像"的知识，自信心是可利用的内在信号
SDS→自我critique：SDS用T2I模型评价3D生成，SOLACE将同一思路内化为自评——优雅的方法论迁移
内在+外在互补：两类信号关注不同维度（自信心→组合性/文字；外部→人类偏好），叠加使用效果最佳
稳定化设计精巧：后缀窗口、不用CFG、在线计算三个设计缺一不可，否则崩溃或效果差
潜空间操作：奖励完全在潜空间计算，无需解码到像素空间，省去了decoder开销

局限性 / 可改进方向¶

与人类偏好指标相关性弱，无法单独靶向特定对齐目标（如美学）
仅验证了flow matching架构（SD3.5），对autoregressive T2I模型适用性未知
未来可探索：(1) 时序/多视角一致性扩展到视频和3D生成；(2) 解耦和校准内在信号以实现任务级奖励塑形

与相关工作的对比¶

vs FlowGRPO：外部奖励有靶向性但易reward hacking且需额外模型；SOLACE免外部依赖但无法精确靶向
vs DPO/ReFL：需偏好配对数据或可微奖励；SOLACE完全无监督
vs Intuitor (LLM)：首次将自信心奖励从LLM离散token扩展到T2I连续去噪轨迹，非平凡迁移
vs SDS：SDS用预训练模型评估外部生成（3D）；SOLACE用当前模型评估自身生成（自评）

与我的研究方向的关联¶

内在信号后训练的思路有跨领域推广价值——检测/分割模型同样经过大规模预训练，是否也可提取类似的"自信心"信号做无监督后训练？

评分¶

新颖性: ⭐⭐⭐⭐ 自信心作为T2I内在奖励新颖且有原理性支撑，但LLM领域Intuitor有先例
实验充分度: ⭐⭐⭐⭐ 多基准(GenEval/OCR/6个偏好指标)+用户研究+消融+多模型(SD3.5-M/L)+互补实验
写作质量: ⭐⭐⭐⭐ 问题定义清晰，方法推导严谨，消融实验系统
对我的价值: ⭐⭐⭐ 图像生成非核心方向，但"内在信号后训练"的范式值得关注