DiffPO: Diffusion Alignment with Direct Preference Optimization¶

会议: ACL 2025
arXiv: 2503.04240
代码: 有（论文中提及）
领域: LLM对齐
关键词: diffusion, inference-time alignment, parallel decoding, model-agnostic, preference optimization

一句话总结¶

提出 DiffPO，将 LLM 对齐重新建模为句子级扩散去噪过程，通过 parallel decoding 实现高效推理时对齐，作为即插即用模块可增强任意底座模型的对齐质量。

研究背景与动机¶

领域现状: RLHF 和 DPO 是主流对齐方法，但需要针对每个策略单独训练，计算资源消耗大。推理时对齐（inference-time alignment）通过直接调整输出分布避免重训练，但仍依赖策略特定的 value function。
现有痛点: 现有推理时对齐方法（ARGS、BoN）可扩展性有限（需策略特定组件），且推理延迟高（逐 token 生成）。训练时对齐方法（DPO、SimPO）需要为每个底座模型单独训练。
核心矛盾: 对齐是句子级（关注风格、格式等整体特征），但生成是 token 级（next-token prediction），这种粒度不匹配增加了学习难度。
本文要解决什么: 实现一种高效、模型无关的对齐方法，一次训练即可应用于多个底座模型，同时减少推理延迟。
切入角度: 受扩散模型全局可控性启发，将对齐过程类比为句子级去噪：从未对齐的句子 y(0) 逐步修正到对齐的句子 y(T)，每步做句子级预测而非 token 级生成。
核心idea一句话: LLM 对齐 = 句子级扩散去噪过程，用一个 DiffPO 模型做 plug-and-play 对齐增强。

方法详解¶

整体框架¶

训练阶段：收集对齐轨迹（同一 prompt 的多个不同对齐程度的 response），训练 DiffPO 模型学习将任意对齐程度的输入映射到高对齐输出。推理阶段：底座模型生成初始 response，DiffPO 接收并进行句子级修正，输出对齐后的 response。

关键设计¶

对齐轨迹构建: 对 UltraFeedback 数据集的每个 prompt，用不同底座模型生成 T=6 个 response，按 ArmoRM reward model 评分排序，最高分为 y(T)（对齐目标），其余为 y(0)~y(T-1)（不同对齐程度的中间状态）。
一致性优化: 核心训练目标是让 DiffPO 对任意中间状态 y(t) 都能直接预测出 y(T)。使用 Consistency Loss（KL 散度让输入 y(t) 时的输出分布接近输入 y(T) 时的分布，后者用 stop-gradient）+ AR Loss（标准自回归损失保持生成质量）。
模型无关性: DiffPO 优化的是句子级修正能力，不依赖特定底座模型参数。训练数据来自多个模型的 response，使得 DiffPO 学到通用的对齐修正模式。推理时不需要访问底座模型参数，兼容 API 模型。

损失函数 / 训练策略¶

总损失 L(θ) = L_AR + ω·L_Con，其中 ω=10³。L_Con 使用前向 KL 散度，L_AR 使用标准交叉熵。backbone 使用 Gemma-2-it-2B/9B 或 Llama-3-8B-Instruct，最大生成长度 N=256。

实验关键数据¶

主实验¶

Llama-3-8B-Instruct 作为底座:

方法	MT-bench	AlpacaEval2 LC(%)	AlpacaEval2 WR(%)	HH-RLHF Helpful
Base	6.78	36.83	42.12	0.67
w. DPO	6.90	47.20	53.56	0.74
w. SimPO	7.05	52.57	58.33	0.75
w. DiffPO-9B	7.40	55.84	61.88	0.72

DiffPO-9B 跨模型增强:

底座模型	AlpacaEval2 LC(%) 原始→+DiffPO
Llama-3-70B-Instruct	46.14 → 58.18 (+12.04)
Qwen2.5-7B-Instruct	45.03 → 57.89 (+12.86)
Llama-3.2-1B-Instruct	15.57 → 50.70 (+35.13)

消融实验¶

不同 DiffPO 规模的影响:

DiffPO 规模	Llama-3-8B AlpacaEval2 LC(%)
DiffPO-8B	36.44
DiffPO-9B	55.84

9B 模型显著优于 8B，说明 DiffPO 自身的能力对修正质量很重要。结合 DPO/SimPO 预对齐的底座模型，DiffPO 可以进一步提升。

关键发现¶

DiffPO-9B 可将 Llama-3.2-1B 的 AlpacaEval2 LC 提升 35 个百分点（15.57→50.70），展现强大的 weak-to-strong 增强能力。
一次训练多模型部署：同一个 DiffPO 模型可应用于 Llama、Mistral、Qwen 等不同模型族。
Harmless 分数显著提升（如 Llama-3-SFT 从 0.91 到 0.98），表明 DiffPO 在安全性方面也有正面效果。
推理时间优于其他推理时方法（ARGS、BoN），在对齐质量-延迟权衡上达到最优点。

亮点与洞察¶

将扩散过程的直觉巧妙迁移到 LLM 对齐：句子级去噪 vs token 级奖励优化，提供全新视角。
真正的"一次训练，多模型部署"能力，极大降低了多模型对齐的总成本。
Consistency 训练使得 DiffPO 可在单步或少步中完成对齐修正，避免多步迭代。
可叠加在现有 DPO/SimPO 之上进一步提升，与训练时对齐方法互补。

局限性 / 可改进方向¶

最大生成长度限制为 256 token，对长文本 response 的覆盖不足。
DiffPO 自身需要足够强的语言能力（2B→远弱于 9B），小 DiffPO 效果有限。
对齐轨迹构建依赖外部 reward model（ArmoRM），引入了 reward model 的偏差。
句子级修正可能改变原始 response 的事实内容，忠实度保证需进一步研究。

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 扩散视角的对齐方法是全新范式，parallel decoding 应用巧妙
实验充分度: ⭐⭐⭐⭐⭐ — 跨8个底座模型、3个benchmark、多维度消融
写作质量: ⭐⭐⭐⭐ — 框架图清晰，理论推导完整
价值: ⭐⭐⭐⭐⭐ — 模型无关的即插即用对齐增强，极具实用价值