Composition and Alignment of Diffusion Models using Constrained Learning¶
会议: NeurIPS 2025
arXiv: 2508.19104
代码: https://github.com/shervinkhalafi/constrained_comp_align
领域: 图像生成 / 扩散模型
关键词: 扩散模型组合, 奖励对齐, 约束优化, KL散度, 拉格朗日对偶
一句话总结¶
提出统一的约束学习框架来处理扩散模型的对齐(alignment)和组合(composition),将多奖励对齐形式化为 KL 散度最小化+奖励约束,将模型组合形式化为 minimax KL 散度问题,通过拉格朗日对偶的原-对偶训练算法求解,相比传统加权方法更可解释且避免了手动调权。
背景与动机¶
扩散模型的两大常见需求:1)对齐——微调模型使其符合用户偏好(如美学质量、安全性),但多个奖励间往往冲突;2)组合——将多个预训练模型合并,使生成样本同时满足各模型的特征。现有方法都依赖加权平均(加权 KL+奖励 或 加权 score 求和),权重需手动调节,且无法保证所有需求都被满足——容易过拟合某个奖励而忽略其他。
核心问题¶
如何在多奖励对齐和多模型组合中,系统性地平衡冲突需求,而非依赖手动调参的加权方案?能否提供理论保证,确保对齐后的模型满足所有指定的奖励约束?
方法详解¶
整体框架¶
将对齐和组合统一为约束优化问题: - 对齐(UR-A):最小化与预训练模型的反向 KL 散度,约束每个奖励的期望值不低于用户指定阈值 b_i - 乘积组合(UR-C):最小化与所有预训练模型的最大 KL 散度(minimax 形式) - 两者都通过拉格朗日对偶转化为可求解的原-对偶优化问题
关键设计¶
-
约束对齐的闭合解(Theorem 1):证明约束对齐问题的最优解是预训练分布经奖励加权后的 tilted 分布 q_{rw}(λ) ∝ q(·)exp(λ^T r(·)),其中最优拉格朗日乘子 λ* 自动分配各奖励的权重。不需要手动调权,只需指定奖励阈值 b_i(更直观)。
-
约束组合的闭合解(Theorem 3):证明乘积组合的最优解是各分布的加权几何平均 q_{AND}(λ) ∝ ∏ q_i^{λ_i/(1^T λ)},最优权重 λ 通过对偶上升自动确定。等权组合是特殊情况,但通常不是最优的。
-
Path-wise vs Point-wise KL:区分扩散轨迹间的 path-wise KL(用于对齐正则化,有解析形式)和末端分布的 point-wise KL(用于组合约束)。Lemma 2 提出了新方法来估计 point-wise KL。
损失函数 / 训练策略¶
原-对偶交替优化: - 原始步(N步):固定 λ,通过梯度下降最小化拉格朗日函数(AlignProp框架 + LoRA微调) - 对偶步:估计约束违反度,通过对偶梯度上升更新 λ - 奖励归一化:用预训练模型的奖励统计量标准化,使不同量级的奖励可以用相同阈值
实验关键数据¶
| 实验 | 效果 | 对比基线 | 差异 |
|---|---|---|---|
| MPS+对比度+饱和度对齐 | 约束方法保持MPS提升50%,同时控制对比度和饱和度 | 等权方法MPS下降 | 等权法过拟合正则化 |
| 5奖励组合(aesthetic/hps/pickscore/imagereward/mps) | 约束组合在所有奖励上均有提升 | 等权组合某些奖励下降30% | 约束自动找最优权重 |
| 概念组合(CLIP/BLIP score) | min CLIP 22.45, min BLIP 0.221 | 等权 22.18/0.203 | 约束更均衡 |
消融实验要点¶
- 约束阈值敏感性:阈值到 1.0σ 时模型通常能满足约束,更高阈值导致更大 KL 偏离
- 拉格朗日乘子的诊断作用:某奖励乘子很大意味着该约束难以满足,稍微放松即可大幅降低 KL
- KL 对比:约束方法比等权方法更接近预训练模型(KL 更小),因为不会过拟合某个奖励
亮点¶
- 理论干净:对齐和组合统一在约束优化框架下,有闭合解和强对偶性保证
- 实用优势:指定奖励阈值比调权重更直观,且乘子提供自动诊断
- 跨模态验证:不仅在图像生成上验证,还在文本到音频(AudioLDM)上验证了概念组合
- 计算开销小:对齐只多了对偶更新(几乎无额外时间),组合仅需 5-10 步对偶迭代
局限性 / 可改进方向¶
- 仅验证了图像和音频生成,未在更多任务(如控制、科学发现)上测试
- 约束对齐和组合的混合场景(同时对齐+组合)仅做了初步实验
- 非凸优化的理论最优性保证有限——强对偶性需要足够表达的函数类
- Point-wise KL 的估计存在近似误差,尤其是使用 surrogate score 时
与相关工作的对比¶
与 AlignProp/DPO-K 对比:这些方法用固定权重的 KL+奖励加权和,权重需手动调;本文用约束替代权重,自动确定最优平衡点。约束方法本质上在寻找满足所有奖励阈值的最近预训练模型分布。
与 Diffusion Soup/Superposition 对比:这些组合方法使用固定等权的 score 求和,不讨论如何确定最优权重。本文的约束组合自动求解最优权重,确保与所有组件模型的最小偏离。
与 投影约束方法(Projected Diffusion) 对比:这些方法处理硬约束(如几何约束),采用投影方法。本文处理期望约束(奖励期望值),采用拉格朗日对偶方法,适用范围不同。
启发与关联¶
- 约束优化视角为扩散模型的可控生成提供了更 principled 的框架
- 拉格朗日乘子的自动诊断功能对实际部署有价值——可以知道哪个需求最难满足
- 组合的理论(tilted product distribution)可能对多任务/多领域模型融合有启发
评分¶
- 新颖性: ⭐⭐⭐⭐ 约束学习视角新颖,统一了对齐和组合
- 实验充分度: ⭐⭐⭐⭐ 对齐和组合均有实验,含音频跨模态验证
- 写作质量: ⭐⭐⭐⭐ 理论部分严谨,但符号较多需要耐心
- 价值: ⭐⭐⭐⭐ 为多奖励对齐和模型组合提供了实用框架