Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning¶

会议: CVPR 2026
arXiv: 2512.24146
代码: 无
领域: 图像生成
关键词: 偏好模式坍塌, RLHF对齐, 扩散模型, 奖励修正, 生成多样性

一句话总结¶

提出 D2-Align 框架，通过在奖励模型嵌入空间中学习方向性修正向量来纠偏奖励信号，解决扩散模型 RLHF 对齐中的偏好模式坍塌（PMC）问题——即模型过度优化奖励导致生成多样性严重下降；同时提出 DivGenBench 基准用于量化评估生成多样性。

研究背景与动机¶

RLHF 已被广泛用于将 T2I 扩散模型与人类偏好对齐，但现有方法在追求高奖励分数的同时产生了严重的副作用：

偏好模式坍塌（PMC）：模型收敛到奖励模型偏好的狭窄模式——风格单一、过度油腻/过曝、人脸同质化，生成多样性严重退化。这是奖励黑客在多样性维度的具体表现
多样性评估缺失：现有工作主要关注质量维度的奖励黑客，对生成多样性的崩溃缺乏关注。不像保真度那样容易量化，多样性没有标准化的评估指标
现有对策仅调幅度不调方向：
- Flow-GRPO 的 KL 正则化需大量手动调参且增加训练开销
- DanceGRPO 的多奖励集成对权重敏感，训练不稳定
- 这些方法本质上只调节奖励的幅度，未纠正奖励模型的内在偏差方向
根本原因假设：奖励模型（如 HPS-v2.1）存在内在偏好偏差，优化过程天然地驱使模型过拟合这些偏好，导致分布坍塌

方法详解¶

整体框架¶

D2-Align 是一个两阶段解耦框架：Stage 1 在冻结生成器的条件下，学习一个方向性修正向量来纠偏奖励信号；Stage 2 利用学到的修正方向引导生成器优化，防止模型陷入特定模式。核心思想是修正奖励的方向而非幅度。

关键设计¶

方向性修正向量 \(\bm{b}_v\)（Stage 1）：
- 核心思路：在奖励模型（HPS-v2.1，CLIP-based）的文本嵌入空间中引入可学习向量 \(\bm{b}_v \in \mathbb{R}^d\)，通过类似 classifier-free guidance 的机制构造修正后的奖励信号
- 动机来源：作者观察到，当给一张油腻过渡渲染的图片对应的 prompt 后附加 "realistic" 等描述词时，奖励分数会被压低，更接近人类真实判断。这说明通过 prompt 扰动可以抵消奖励模型的偏差。但离散词汇空间有限且需手动选择，因此转向在连续嵌入空间学习最优修正方向
- 具体实现：从原始文本嵌入 \(\bm{e}_{\text{text}} = \Phi_{\text{text}}(c)\) 出发，构造正/负扰动嵌入： \(\bm{e}_+ = \text{normalize}(\bm{e}_{\text{text}} + \bm{b}_v), \quad \bm{e}_- = \text{normalize}(\bm{e}_{\text{text}} - \bm{b}_v)\) 通过引导尺度 \(\omega > 1\) 构造修正后的文本嵌入（外推而非内插）： \(\tilde{\bm{e}}_{\text{text}} = \bm{e}_- + \omega \cdot (\bm{e}_+ - \bm{e}_-)\) 修正后的奖励信号：\(R_{\text{guided}}(\bm{x}_0, c; \bm{b}_v) = \text{score}(\bm{e}_{\text{img}}, \tilde{\bm{e}}_{\text{text}})\)
- 训练：冻结生成器 \(G_\theta\)，最小化 \(\mathcal{L}_{\text{stage1}}(\bm{b}_v) = \mathbb{E}[-R_{\text{guided}}]\)，约 2000 步收敛
引导式生成器优化（Stage 2）：
- 核心思路：冻结 Stage 1 学到的 \(\bm{b}_v^*\)，用修正后的奖励信号优化生成器参数 \(\theta\)
- 设计动机：修正后的奖励信号抑制了奖励模型的偏好膨胀效应（如给油腻图片虚高评分），迫使生成器无法通过迎合奖励模型的单一偏好获得高分，从而被迫探索更广泛的生成模式
- 优化目标： \(\mathcal{L}_{\text{stage2}}(\theta) = \mathbb{E}_{c \sim \mathcal{D}, \bm{x}_0 \sim G_\theta(c)}[-R_{\text{guided}}(\bm{x}_0, c; \bm{b}_v^*)]\)
- 两阶段解耦的好处：避免 \(\bm{b}_v\) 和 \(\theta\) 同时优化导致的不稳定性和方向漂移
Ground-Truth Noise Prior 技术：
- 核心思路：解决奖励评估需要干净图像但优化在噪声潜变量上进行的矛盾
- 设计动机：标准的一步去噪预测 \(\hat{\bm{x}}_0\) 在高噪声时间步（大 \(t\)）不准确，导致奖励信号不稳定。使用已知的 ground-truth 噪声可以获得可靠的重建
- 实现：从干净图像 \(\bm{x}_0\) 和已知噪声 \(\bm{\epsilon}_{\text{gt}}\) 构造 \(\bm{x}_t = \alpha_t \bm{x}_0 + \sigma_t \bm{\epsilon}_{\text{gt}}\)，再通过一步去噪恢复：\(\hat{\bm{x}}_0 = (\bm{x}_t - \sigma_t \bm{\epsilon}_\theta(\bm{x}_t, t)) / \alpha_t\)，使时间步 \(t\) 可在 \([0,1]\) 均匀采样
DivGenBench 多样性基准：
- 核心思路：填补 T2I 对齐中多样性量化评估的空白
- Prompt 设计：关键词驱动，主动探测模型的生成边界，而非依赖模糊 prompt 的输出方差
- 四个维度：ID（高层语义，如人脸身份）、Style（中层美学，如画风）、Layout（结构关系，如空间布局）、Tonal（低层物理，如色调明暗）
- 规模：共 3200 个 prompt，每个维度 800 个
- 四个定制指标：IDS（身份发散分数）、ASC（风格覆盖度）、SDI（空间分散指数）、PVS（摄影方差分数），分别结合 ArcFace 等领域特定提取器计算

损失函数/训练策略¶

Stage 1 损失：\(\mathcal{L}_{\text{stage1}}(\bm{b}_v) = \mathbb{E}_{c, \bm{x}_0 \sim G_{\theta_{\text{frozen}}}}[-R_{\text{guided}}]\)，仅优化低维向量 \(\bm{b}_v\)，训练高效
Stage 2 损失：\(\mathcal{L}_{\text{stage2}}(\theta) = \mathbb{E}[-R_{\text{guided}}(\bm{x}_0, c; \bm{b}_v^*)]\)，使用冻结的修正向量优化生成器
基座模型：FLUX.1.Dev
奖励模型：HPS-v2.1（主配置），另测试 HPS-v2.1 + CLIP 双奖励配置
训练效率：D2-Align 在更少的训练步数内达到更高分数，DanceGRPO 和 Flow-GRPO 需要 250+ 步才能达到类似水平
引导尺度：\(\omega = 1.5\) 为最优超参数

实验关键数据¶

主实验（质量评估，Table 1）¶

基于 FLUX.1.Dev，HPS-v2.1 单奖励配置：

方法	Aesthetic ↑	ImageReward ↑	PickScore ↑	Q-Align ↑	HPS-v2.1 ↑	CLIP ↑	GenEval ↑
FLUX 基线	6.417	1.670	0.240	4.922	0.310	0.315	0.663
DanceGRPO	6.068	1.664	0.241	4.930	0.361	0.293	0.522
Flow-GRPO	5.888	1.703	0.239	4.969	0.367	0.283	0.517
SRPO	6.614	1.533	0.241	4.866	0.296	0.302	0.623
D2-Align	6.450	1.771	0.246	4.969	0.343	0.323	0.636

DanceGRPO/Flow-GRPO 的 HPS-v2.1 虚高但 Aesthetic、CLIP、GenEval 全面下滑，典型的奖励黑客。D2-Align 在除 HPS-v2.1 外的所有指标上领先。

消融实验（DivGenBench 多样性，Table 2）¶

方法	IDS ↓	ASC ↑	SDI ↑	PVS ↑
FLUX 基线	0.280	0.179	0.563	0.408
DanceGRPO	0.348	0.130	0.488	0.259
Flow-GRPO	0.391	0.044	0.389	0.168
SRPO	0.259	0.234	0.580	0.352
D2-Align	0.251	0.253	0.636	0.412

Flow-GRPO 多样性崩溃最严重（ASC 0.044 vs FLUX 0.179），验证了 PMC 现象。D2-Align 在所有多样性指标上均为最优，甚至超越未对齐的 FLUX 基线。

关键发现¶

PMC 现象被量化证实：DanceGRPO/Flow-GRPO 虽 HPS-v2.1 分数虚高，但多样性全面崩溃，IDS/ASC/SDI/PVS 均大幅劣化
\(\bm{b}_v\) 约 2000 步收敛：修正效果稳定后即可冻结进入 Stage 2
\(\omega = 1.5\) 最优：引导尺度过大会过度修正导致质量下降，过小则修正不足
连续向量优于离散词汇：学习的 \(\bm{b}_v\) 在雷达图所有维度上超越手动选择的 "realistic" 等词汇扰动和无修正基线
\(\bm{b}_v^*\) 可迁移：将学到的修正向量应用到 DanceGRPO/Flow-GRPO 等其他方法也能缓解 PMC
质量-多样性不再是 trade-off：D2-Align 同时提升了质量和多样性，打破了传统对齐中的此消彼长

亮点与洞察¶

首次系统定义和量化 PMC：从多样性视角重新审视奖励黑客问题，提出了被忽视但重要的新研究方向
方向性修正 vs 幅度调节：不同于 KL 正则化、多奖励集成等调幅方法，D2-Align 直接修正奖励模型的偏差方向，是更根本的解法
高效的两阶段设计：Stage 1 只学一个低维向量，Stage 2 比基线更快收敛，训练成本低
DivGenBench 填补评估空白：关键词驱动的 prompt 设计 + 维度定制指标，为社区提供了标准化的多样性评估工具
嵌入空间修正的通用性：在连续嵌入空间学习修正方向的思路，可推广到 LLM 对齐、视频生成等其他奖励黑客场景

局限性¶

仅在 FLUX.1.Dev 上验证，未测试 SD3/SDXL 等其他架构的泛化性
\(\bm{b}_v\) 是全局共享的单一方向向量，可能无法覆盖奖励模型的所有偏差模式（如不同 prompt 类型的偏差方向可能不同）
DivGenBench 四个维度未必穷尽所有多样性方面（如纹理、光照变化等）
目前仅验证了 HPS-v2.1 作为奖励模型，其他奖励模型的偏差模式可能需要重新学习 \(\bm{b}_v\)
未探索在视频生成或 3D 生成等其他模态中的适用性

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次定义 PMC 并提出方向性修正框架，问题发现和解法设计都很新颖
实验充分度: ⭐⭐⭐⭐ — 质量+多样性双维评估+消融+用户研究，但仅在 FLUX 上验证
写作质量: ⭐⭐⭐⭐ — 动机引导清晰，从现象观察到方法设计的逻辑链完整
实用价值: ⭐⭐⭐⭐⭐ — PMC 是实际部署中的真实痛点，\(\bm{b}_v\) 可迁移到其他方法，DivGenBench 可成为标准基准