Composition and Alignment of Diffusion Models using Constrained Learning¶

会议: NeurIPS 2025
arXiv: 2508.19104
代码: https://github.com/shervinkhalafi/constrained_comp_align
领域: 图像生成 / 扩散模型
关键词: 扩散模型组合, 奖励对齐, 约束优化, KL散度, 拉格朗日对偶

一句话总结¶

提出统一的约束学习框架来处理扩散模型的对齐（alignment）和组合（composition），将多奖励对齐形式化为 KL 散度最小化+奖励约束，将模型组合形式化为 minimax KL 散度问题，通过拉格朗日对偶的原-对偶训练算法求解，相比传统加权方法更可解释且避免了手动调权。

背景与动机¶

扩散模型的两大常见需求：1）对齐——微调模型使其符合用户偏好（如美学质量、安全性），但多个奖励间往往冲突；2）组合——将多个预训练模型合并，使生成样本同时满足各模型的特征。现有方法都依赖加权平均（加权 KL+奖励或加权 score 求和），权重需手动调节，且无法保证所有需求都被满足——容易过拟合某个奖励而忽略其他。

核心问题¶

如何在多奖励对齐和多模型组合中，系统性地平衡冲突需求，而非依赖手动调参的加权方案？能否提供理论保证，确保对齐后的模型满足所有指定的奖励约束？

方法详解¶

整体框架¶

将对齐和组合统一为约束优化问题： - 对齐（UR-A）：最小化与预训练模型的反向 KL 散度，约束每个奖励的期望值不低于用户指定阈值 b_i - 乘积组合（UR-C）：最小化与所有预训练模型的最大 KL 散度（minimax 形式） - 两者都通过拉格朗日对偶转化为可求解的原-对偶优化问题

关键设计¶

约束对齐的闭合解（Theorem 1）：证明约束对齐问题的最优解是预训练分布经奖励加权后的 tilted 分布 q_{rw}(λ) ∝ q(·)exp(λ^T r(·))，其中最优拉格朗日乘子 λ* 自动分配各奖励的权重。不需要手动调权，只需指定奖励阈值 b_i（更直观）。
约束组合的闭合解（Theorem 3）：证明乘积组合的最优解是各分布的加权几何平均 q_{AND}(λ) ∝ ∏ q_i^{λ_i/(1^T λ)}，最优权重 λ 通过对偶上升自动确定。等权组合是特殊情况，但通常不是最优的。
Path-wise vs Point-wise KL：区分扩散轨迹间的 path-wise KL（用于对齐正则化，有解析形式）和末端分布的 point-wise KL（用于组合约束）。Lemma 2 提出了新方法来估计 point-wise KL。

损失函数 / 训练策略¶

原-对偶交替优化： - 原始步（N步）：固定 λ，通过梯度下降最小化拉格朗日函数（AlignProp框架 + LoRA微调） - 对偶步：估计约束违反度，通过对偶梯度上升更新 λ - 奖励归一化：用预训练模型的奖励统计量标准化，使不同量级的奖励可以用相同阈值

实验关键数据¶

实验	效果	对比基线	差异
MPS+对比度+饱和度对齐	约束方法保持MPS提升50%，同时控制对比度和饱和度	等权方法MPS下降	等权法过拟合正则化
5奖励组合(aesthetic/hps/pickscore/imagereward/mps)	约束组合在所有奖励上均有提升	等权组合某些奖励下降30%	约束自动找最优权重
概念组合(CLIP/BLIP score)	min CLIP 22.45, min BLIP 0.221	等权 22.18/0.203	约束更均衡

消融实验要点¶

约束阈值敏感性：阈值到 1.0σ 时模型通常能满足约束，更高阈值导致更大 KL 偏离
拉格朗日乘子的诊断作用：某奖励乘子很大意味着该约束难以满足，稍微放松即可大幅降低 KL
KL 对比：约束方法比等权方法更接近预训练模型（KL 更小），因为不会过拟合某个奖励

亮点¶

理论干净：对齐和组合统一在约束优化框架下，有闭合解和强对偶性保证
实用优势：指定奖励阈值比调权重更直观，且乘子提供自动诊断
跨模态验证：不仅在图像生成上验证，还在文本到音频（AudioLDM）上验证了概念组合
计算开销小：对齐只多了对偶更新（几乎无额外时间），组合仅需 5-10 步对偶迭代

局限性 / 可改进方向¶

仅验证了图像和音频生成，未在更多任务（如控制、科学发现）上测试
约束对齐和组合的混合场景（同时对齐+组合）仅做了初步实验
非凸优化的理论最优性保证有限——强对偶性需要足够表达的函数类
Point-wise KL 的估计存在近似误差，尤其是使用 surrogate score 时

与相关工作的对比¶

与 AlignProp/DPO-K 对比：这些方法用固定权重的 KL+奖励加权和，权重需手动调；本文用约束替代权重，自动确定最优平衡点。约束方法本质上在寻找满足所有奖励阈值的最近预训练模型分布。

与 Diffusion Soup/Superposition 对比：这些组合方法使用固定等权的 score 求和，不讨论如何确定最优权重。本文的约束组合自动求解最优权重，确保与所有组件模型的最小偏离。

与 投影约束方法（Projected Diffusion） 对比：这些方法处理硬约束（如几何约束），采用投影方法。本文处理期望约束（奖励期望值），采用拉格朗日对偶方法，适用范围不同。

启发与关联¶

约束优化视角为扩散模型的可控生成提供了更 principled 的框架
拉格朗日乘子的自动诊断功能对实际部署有价值——可以知道哪个需求最难满足
组合的理论（tilted product distribution）可能对多任务/多领域模型融合有启发

评分¶

新颖性: ⭐⭐⭐⭐ 约束学习视角新颖，统一了对齐和组合
实验充分度: ⭐⭐⭐⭐ 对齐和组合均有实验，含音频跨模态验证
写作质量: ⭐⭐⭐⭐ 理论部分严谨，但符号较多需要耐心
价值: ⭐⭐⭐⭐ 为多奖励对齐和模型组合提供了实用框架