LFPO: Likelihood-Free Policy Optimization for Masked Diffusion Models¶
日期: 2026-03-02
arXiv: 2603.01563
代码: 无
领域: LLM推理 / 扩散语言模型
关键词: diffusion LLM, RLVR, likelihood-free, flow matching, masked diffusion
一句话总结¶
LFPO 提出面向 Masked Diffusion 语言模型(dLLM)的原生对齐框架:将 flow matching 的向量场概念映射到离散 token 空间,绕过不可解的似然计算,通过对比更新直接优化去噪 logits,在代码和推理任务上超越 SOTA,同时通过中间步一致性约束将推理加速约 20%。
研究背景与动机¶
- 领域现状:Diffusion LLM(如 LLaDA、Dream)作为自回归的替代方案快速崛起,通过并行去噪实现高效生成。RLVR(Reinforcement Learning with Verifiable Rewards)已在自回归 LLM 上大获成功(数学推理、代码生成的准确性显著提升)。
- 现有痛点 — 似然不可解:RLVR 的核心是 policy gradient,需要计算模型的似然 \(\log p_\theta(y|x)\)。对自回归模型这很简单(token 概率连乘),但对 dLLM,精确似然需要 Evidence Lower Bound(ELBO),涉及所有扩散步和所有位置的边缘化,计算上不可行。现有方法(如 dDPO)不得不用高方差近似,效果不稳定。
- 核心矛盾:dLLM 的对齐需要奖励信号指导优化,但经典 RL 方法都依赖似然,而 dLLM 的似然天然不可解
- 切入角度:不执着于估计似然,而是直接在 logit 空间做优化。借鉴连续扩散中 flow matching 的"速度场矫正"概念,设计无似然的策略更新规则
- 核心 idea:绕过似然计算,将对齐问题重新formulate为"几何速度矫正"——对好/坏样本的去噪 logits 做对比更新,直接拉直概率流(straighten probability flow),同时实现质量提升和加速推理
方法详解¶
整体框架¶
给定 dLLM(如 LLaDA),从 masked input 去噪生成回答 → 用 verifiable reward 评估正确性 → LFPO 对比正确/错误样本的去噪 logits,更新模型参数使去噪方向偏向正确答案。同时约束中间步预测与最终答案的一致性(straighten flow)。
关键设计¶
-
离散速度场映射(Discrete Flow Matching)
- 做什么:将连续扩散中的向量场概念映射到离散 token 空间
- 核心思路:在连续空间中,flow matching 学习将噪声映射到数据的速度场 \(v_\theta(x_t, t)\)。在离散空间中,"速度"变成了去噪 logits:每个位置在每个时间步的预测分布。LFPO 定义离散版本的速度场为 \(f_\theta(x_t, t) = \text{logits}\) 指示预测方向
- 设计动机:将连续世界的几何直觉(速度、流、拉直)引入离散世界,绕过似然瓶颈
-
对比 Logit 更新(Contrastive Velocity Rectification)
- 做什么:通过对比正确/错误样本直接优化去噪 logits
- 核心思路:采样多个回答,用 verifiable reward 区分正确(\(y^+\))和错误(\(y^-\))。损失函数形如 \(\mathcal{L} = -\log \sigma(f_\theta(y^+) - f_\theta(y^-))\),直接拉大好/坏样本在 logit 空间的距离
- 设计动机:对比学习不需要显式的似然计算,只需要相对偏好——完美匹配 verifiable reward 的二元信号
-
流拉直约束(Probability Flow Straightening)
- 做什么:约束中间扩散步的预测与最终答案一致
- 核心思路:从中间步 \(x_t\) 直接预测最终 \(x_0\),鼓励预测轨迹"一步到位"而非绕弯。\(\mathcal{L}_{\text{straight}} = \|f_\theta(x_t) - x_0\|\) 约束中间步预测直指终点
- 设计动机:拉直后的流可以用更少的步数达到同样质量,实现推理加速(~20% 步数减少)
训练策略¶
- 从预训练 dLLM 开始,交替:(1) 采样回答 → 计算奖励 → 对比更新;(2) 构造中间步 → 流拉直约束
- 奖励可以是数学答案的正确性验证或代码的测试通过率
实验关键数据¶
主实验¶
| 方法 | 代码 (HumanEval) | 数学 (GSM8K/Math) | 推理速度 |
|---|---|---|---|
| LLaDA-8B (base) | 基准 | 基准 | 基准 |
| dDPO (似然近似) | +小幅 | +小幅 | 不变 |
| dRLHF (ELBO 近似) | +中等 | +中等 | 不变 |
| LFPO | 最优 | 最优 | ~20% 加速 |
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| LFPO 无流拉直 | 质量好但速度无提升 | 拉直是加速的关键 |
| LFPO 无对比(只做拉直) | 速度快但质量差 | 对比更新是准确率的关键 |
| 用似然近似代替对比 | 降低 2-5% | 似然近似方差大,不如对比稳定 |
| 完整 LFPO | 最优 | 对比+拉直互补 |
关键发现¶
- 似然近似方法(dDPO、dRLHF)在 dLLM 上效果不稳定,因为 ELBO 近似的方差随序列长度增加
- LFPO 的对比更新完全避免了似然估计,梯度更精确,训练更稳定
- 流拉直直接带来推理加速——减少 20% 扩散步数而不损失质量
- 两个组件互补:对比更新提升质量,流拉直提升速度
亮点与洞察¶
- 绕过"不可能"的技术路径:不是更好地近似似然,而是重新定义优化目标,直接在 logit 空间做优化——思路非常优雅
- 质量+速度双收:通常 alignment 会增加推理成本,但 LFPO 通过流拉直同时加速推理,一石二鸟
- 连续到离散的概念迁移:将 flow matching 的几何直觉(速度场、流拉直)系统地迁移到离散 token 空间
局限性 / 可改进方向¶
- 只在 dLLM 上验证(LLaDA/Dream),是否适用于其他非自回归模型待探索
- 流拉直假设存在最优的"直线路径",对于多模答案分布可能不成立
- 训练仍需采样大量正负样本对,计算成本不低
- 20% 的加速虽好,但 dLLM 本身的推理成本仍高于自回归
相关工作与启发¶
- vs dDPO/dRLHF: 这些方法直接搬运自回归 RL 的框架到 dLLM,被似然不可解卡住。LFPO 从根本上回避了这个问题
- vs Flow Matching: LFPO 是 flow matching 在离散空间的创新应用,将连续领域的理论工具适配到 dLLM
- vs GRPO(自回归RL): GRPO 用组相对奖励优化自回归模型,LFPO 是 dLLM 的对应方案
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 离散flow matching + 无似然策略优化是全新的formulation
- 实验充分度: ⭐⭐⭐⭐ 代码+数学两大任务 + 消融 + 加速验证
- 写作质量: ⭐⭐⭐⭐ 连续→离散的类比讲得清楚
- 价值: ⭐⭐⭐⭐⭐ 为 dLLM 的对齐提供了实用且理论扎实的方案,解决了核心瓶颈