Calibrated Multi-Preference Optimization for Aligning Diffusion Models¶

会议: CVPR 2025
arXiv: 2502.02588
代码: https://kyungmnlee.github.io/capo.github.io/
领域: 对齐RLHF / 扩散模型
关键词: 校准偏好优化, 多奖励对齐, Pareto前沿, 扩散模型微调, win-rate校准

一句话总结¶

本文提出 Calibrated Preference Optimization（CaPO），通过 win-rate 校准将不同奖励模型的分数统一为期望胜率，并设计基于 Pareto 前沿的配对采样策略（FRS）来处理多奖励信号间的冲突，在 SDXL 和 SD3-Medium 上一致地超越 DPO 和 IPO 方法。

研究背景与动机¶

领域现状：文本到图像（T2I）扩散模型与人类偏好对齐是一个重要研究方向。Diffusion-DPO 将 DPO 成功应用于大规模扩散模型，但需要昂贵的人类标注偏好数据集。一个替代方案是使用多个奖励模型来模拟人类偏好并生成训练数据，这样可以避免人工标注成本。

现有痛点：在使用多个奖励模型进行偏好优化时存在三大问题。第一，pairwise 信息利用不足：当前方法只用奖励模型来判断二元偏好（win/lose），丢弃了奖励分数中的丰富信息（如质量差距的大小）。第二，缺乏多奖励泛化：现有方法主要针对单一奖励设计，直接用奖励加权求和来处理多奖励会导致次优结果，因为不同奖励模型的分数范围和分布差异大。第三，奖励间存在冲突：例如优化美学奖励往往会降低 prompt 对齐质量，不同奖励信号之间的不一致性使得简单线性组合失败。

核心矛盾：多个奖励模型的黑盒评分分布不一致——有的值域是 [0,1]，有的可能是 [-10,10]，分数的绝对值不反映样本质量的真实好坏程度（Bradley-Terry 模型下的奖励值可能高但实际质量并不好）。

本文目标 1）如何将不同奖励模型的分数校准到统一尺度？2）如何在多奖励冲突时选择训练样本对？3）如何避免单一奖励过度优化（reward hacking）？

切入角度：作者提出用"对参考模型的期望胜率"（expected win-rate）代替原始奖励值。胜率天然在 [0,1] 范围内，为不同奖励模型提供了统一的衡量标准。通过 pairwise 比较近似计算胜率，得到校准后的奖励信号。对于多奖励场景，使用非支配排序找到 Pareto 前沿来选择训练对。

核心 idea：用 win-rate 校准代替原始奖励值、用 Pareto 前沿采样代替加权求和来实现多奖励扩散模型对齐。

方法详解¶

整体框架¶

CaPO 的训练流程如下：（a）用预训练 T2I 模型对每个 prompt 生成 \(N\) 张图像，用多个奖励模型打分；（b）对每张图像计算校准奖励——通过与其他 \(N-1\) 张图像的 pairwise 比较得到 win-rate 近似值；（c）选择训练对——单奖励时取最高/最低校准奖励的样本，多奖励时用 Pareto 前沿采样；（d）训练时用回归损失最小化校准奖励差与隐式奖励差的差距。

关键设计¶

Win-Rate 校准奖励（Calibrated Rewards）:
- 功能：将不同奖励模型的分数统一到 [0,1] 范围，消除分布不一致性
- 核心思路：对于给定 prompt \(c\)，从参考模型生成 \(N\) 个样本 \(\{x_i\}_{i=1}^N\)。定义数据 \(x\) 对分布 \(p(\cdot|c)\) 的胜率为 \(\mathbb{P}(x \succ p | c) = \mathbb{E}_{x' \sim p}[\mathbb{P}(x \succ x'|c)]\)。在 Bradley-Terry 模型下，pairwise 胜率 \(\mathbb{P}(x \succ x'|c) = \sigma(R(x,c) - R(x',c))\)。因此，样本 \(x_i\) 的校准奖励为所有其他样本的平均 pairwise 胜率：\(R_{\text{ca}}(x_i, c) = \frac{1}{N-1}\sum_{j \neq i} \sigma(R(x_i, c) - R(x_j, c))\)。当 \(N\) 足够大时，\(R_{\text{ca}}\) 近似等于对参考模型的真实胜率。胜率天然有界、可比较，解决了不同奖励模型分数范围不一致的问题
- 设计动机：原始 Bradley-Terry 奖励值即使预测准确性高，也不一定反映样本的绝对质量。例如，在一批低质量样本中，"最好的"得分可能很高但实际质量差。胜率更准确地反映"比参考模型好多少"
基于 Pareto 前沿的配对采样（Frontier-based Rejection Sampling, FRS）:
- 功能：在多奖励场景下选择平衡各奖励信号的训练对
- 核心思路：给定 \(L\) 个奖励模型的校准分数，为每个 prompt 的 \(N\) 个生成样本构建 \(L\) 维向量。使用非支配排序（non-dominated sorting）算法找到上 Pareto 前沿（positive set \(X^+\)）和下 Pareto 前沿（negative set \(X^-\)）。定义支配关系：\(x\) 支配 \(x'\) 当且仅当 \(R_{\text{ca}}^{(j)}(x) \geq R_{\text{ca}}^{(j)}(x')\) 对所有 \(j=1,...,L\) 成立。上 Pareto 集是非支配点集合，下 Pareto 集是被支配点集合。训练时从 \(X^+\) 采正样本、从 \(X^-\) 采负样本。优化目标使用多奖励的平均校准分数：\(R_{\text{ca}}(x,c) = \frac{1}{L}\sum_{j=1}^{L} R_{\text{ca}}^{(j)}(x,c)\)
- 设计动机：加权求和方法需要手动调权重，且固定权重可能对某些 prompt 不合适。Pareto 前沿是多目标优化的经典概念，自动识别在所有维度上都好/差的样本，无需预设权重。推动模型远离下 Pareto 前沿、趋近上 Pareto 前沿，自然实现多目标平衡
CaPO 回归损失:
- 功能：利用校准奖励差作为动态目标，指导扩散模型的偏好学习
- 核心思路：不同于标准 DPO 的 log-sigmoid 损失（隐式假设 \(\Delta R = 1\)），CaPO 使用回归损失来匹配校准奖励差：\(\mathcal{L}_{\text{CaPO}}(\theta) = \mathbb{E}_{t,\epsilon,\epsilon'}\left[\left(R_{\text{ca}}(x^+, c) - R_{\text{ca}}(x^-, c) - \beta(R_\theta(x_t^+, c, t) - R_\theta(x_t^-, c, t))\right)^2\right]\)。其中 \(R_\theta\) 是扩散模型的隐式奖励，由 \(\epsilon\)-prediction 损失差定义。CaPO 是 IPO 的泛化（IPO 固定 \(\Delta R = 1\)），通过动态目标避免过度优化——当校准奖励差小时，模型不会被迫学习过大的偏好差距
- 设计动机：固定 \(\Delta R = 1\) 的 IPO 对所有偏好对施加相同力度的学习信号，忽略了对之间质量差距的大小。CaPO 的动态目标使学习更精细——大差距对给更强信号，小差距对给更温和信号

损失加权¶

采用单调递减的 sigmoid 权重函数 \(w_t = \sigma(-\lambda_t + b)\)，其中 \(\lambda_t\) 是 log-SNR，\(b\) 是偏置参数。高噪声（低 \(\lambda_t\)）时权重大，低噪声（高 \(\lambda_t\)）时权重小。等价于用加权 ELBO 代替 KL 散度作为正则化项。

实验关键数据¶

单奖励实验（SDXL，对基线的 win-rate %）¶

微调奖励 →	MPS	VQAscore	VILA
DPO	58.5 / 49.3 / 61.7	53.1 / 50.6 / 55.9	52.6 / 46.4 / 81.8
IPO	56.8 / 50.1 / 64.1	53.1 / 51.9 / 53.8	53.3 / 48.5 / 76.1
CaPO	61.1 / 49.7 / 64.9	55.5 / 53.2 / 58.7	54.1 / 49.6 / 83.1

多奖励实验（SDXL）¶

目标	方法	MPS Win%	VQA Win%	VILA Win%
DPO	SUM	57.2	52.1	71.9
DPO	FRS	58.1	52.9	78.6
CaPO	SUM	61.2	52.5	75.0
CaPO	FRS	61.2	54.6	79.2

GenEval 基准（图文对齐）¶

模型	Overall
SDXL	0.55
CaPO+SDXL	0.59
SD3-M	0.68
CaPO+SD3-M	0.71

关键发现¶

CaPO 在单奖励和多奖励设置下均一致优于 DPO 和 IPO，说明 win-rate 校准确实提供了更好的训练信号
FRS（Pareto 前沿采样）在多奖励场景下比简单加权求和（SUM）和模型汤（SOUP）都更有效，尤其在 VILA（美学）维度上提升最明显
CaPO+FRS 在 SDXL 上实现了所有三个奖励维度的同时提升，避免了单一奖励优化时典型的"跷跷板"效应
在 GenEval 上 CaPO 对 SDXL 和 SD3-M 都有提升，说明在改善视觉质量的同时没有牺牲 prompt 对齐
SD3-Medium 上的表现同样稳定，证明方法对不同架构的扩散模型（U-Net vs DiT）都有效

亮点与洞察¶

Win-rate 校准是一个简洁而强大的想法：将不可比较的奖励分数转化为统一的"比参考模型好多少"的度量，方法优雅且理论有据
Pareto 前沿避免了人工调权重：非支配排序是多目标优化的经典工具，而此前扩散模型偏好优化领域几乎没有使用，是一个有价值的引入
CaPO 作为 IPO 的泛化：动态目标 \(\Delta R\) 比固定目标更合理，既避免了 DPO 的不稳定性，又比 IPO 更精细
不需要人类标注数据：完全依赖奖励模型打分，大幅降低了数据成本

局限与展望¶

依赖多个奖励模型的质量——如果奖励模型本身不准确或存在系统偏差,校准后的结果可能仍然次优
生成 \(N\) 个样本和多奖励评分的数据准备成本较高（GPU 开销大）
实验主要在 SDXL 和 SD3-M 上验证，尚未在更大规模模型（如 Flux、DALL-E 3）上测试
Pareto 前沿在高维奖励空间（\(L\) 很大时）可能退化——大部分点都是非支配的，采样策略可能失效
未与 RLHF 方法（如 DDPO、ReFL）做直接对比
缺乏大规模人类评估，自动指标与真实人类偏好的一致性未充分验证

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
实用性: ⭐⭐⭐⭐