Ψ-Sampler: Initial Particle Sampling for SMC-Based Inference-Time Reward Alignment in Score Models¶
会议: NeurIPS 2025
arXiv: 2506.01320
代码: 项目页面
领域: 扩散模型 / 图像生成
关键词: 推理时对齐, 序贯蒙特卡洛, 奖励对齐, MCMC, preconditioned Crank-Nicolson
一句话总结¶
提出Ψ-Sampler框架,在SMC(序贯蒙特卡洛)推理时奖励对齐中引入基于pCNL(预条件Crank-Nicolson Langevin)算法的初始粒子采样,从奖励感知的后验分布初始化粒子,显著提升布局生成、数量感知生成和美学偏好生成的对齐效果。
研究背景与动机¶
推理时对齐的范式转变:类似于LLM从预训练到后训练的范式转移(如GPT-o3、DeepSeek的"Aha moment"),扩散模型也越来越重视推理阶段的对齐优化。SMC方法将去噪过程视为序贯采样,通过维护多个粒子并根据奖励函数重采样来引导生成。
现有SMC方法的核心缺陷:所有现有SMC方法(TDS、DAS、FPS等)都从标准高斯先验初始化粒子,完全忽略奖励信息。这有两个严重问题:
扩散系数衰减问题:在去噪后期 \(g(t)^2 \to 0\),奖励梯度的影响被 \(g^2(t)\) 缩放导致逐渐消失,后期难以引导粒子到高奖励区域
多模态奖励函数问题:当奖励函数高度非凸时,后期中间分布已经高度集中在特定模式附近,模式间的连通性降低,粒子难以逃逸局部最优
核心idea:与其依赖后期阶段的粒子探索,不如在初始阶段就从奖励感知的后验分布采样高质量粒子。最优初始分布有解析形式:\(\tilde{p}_1^*(\mathbf{x}_1) = \frac{1}{Z_1} p_1(\mathbf{x}_1) \exp\left(\frac{r(\mathbf{x}_{0|1})}{\alpha}\right)\)。
高维MCMC的挑战:FLUX模型的潜空间维度达65536,传统MALA的接受率随维度增加急剧衰减(步长需按 \(O(d^{-1/3})\) 缩小),导致极慢的混合速度。
方法详解¶
整体框架¶
Ψ-Sampler = pCNL初始粒子采样 + 标准SMC去噪过程。先用pCNL从后验分布采样一组高质量初始粒子,再将它们输入标准SMC流程。总NFE预算一半分配给初始粒子采样,一半给SMC。
关键设计¶
-
奖励感知后验分布: 最优初始分布为 \(\tilde{p}_1^*(\mathbf{x}_1) \propto p_1(\mathbf{x}_1) \exp(r(\mathbf{x}_{0|1})/\alpha)\),其中 \(\mathbf{x}_{0|1}\) 是通过Tweedie公式从 \(\mathbf{x}_1\) 估计的干净图像。这是已知形式的非归一化密度,适合MCMC采样。
- 近期蒸馏技术(如rectified flow)使轨迹更直、Tweedie估计更早准确,为从全噪声状态就能有效评估奖励创造了条件
- 正则化参数 \(\alpha\) 控制奖励最大化和先验保持的平衡
-
预条件Crank-Nicolson Langevin (pCNL) 算法: pCN算法专为无限维/函数空间设计,核心是半隐式Euler离散化: \(\mathbf{x}' = \rho \mathbf{x} + \sqrt{1-\rho^2}\left(\mathbf{z} + \frac{\sqrt{\epsilon}}{2} \nabla \frac{r(\mathbf{x}_{0|1})}{\alpha}\right), \quad \rho = \frac{1-\epsilon/4}{1+\epsilon/4}\)
与MALA的关键区别: - pCNL的提议分布保持了高斯先验的不变性(prior-preserving),因此接受率不随维度退化 - MALA在65536维空间中步长0.05以上接受率就趋近于零,而pCNL在步长2.0时仍保持合理接受率 - pCNL步长更大意味着更快的混合速度和更高效的探索 - pCNL同样使用MH修正保证收敛到正确分布
-
初始粒子采样流程:
- 从先验采样初始状态
- 运行pCNL链,丢弃burn-in部分
- 以固定间隔(thinning)采样得到K个粒子
- 使用固定步长,简单有效
- 采样的粒子直接作为SMC的初始粒子
损失函数 / 训练策略¶
本方法是纯推理时方法,无需训练。核心计算开销在于: - pCNL每步需要计算 \(\nabla r(\mathbf{x}_{0|1})\),即奖励对Tweedie估计的梯度 - SMC每步需要计算加权的去噪步骤 - 总NFE预算在pCNL和SMC之间分配
实验关键数据¶
主实验 — 三个任务的定量比较 (FLUX模型)¶
| 任务 | 指标 | DPS | FreeDoM | TDS | DAS | Top-K | ULA | MALA | Ψ-Sampler |
|---|---|---|---|---|---|---|---|---|---|
| 布局生成 | GroundingDINO↑ | 0.166 | 0.177 | 0.417 | 0.363 | 0.425 | 0.370 | 0.401 | 0.467 |
| 布局生成 | mIoU (held-out)↑ | 0.215 | 0.229 | 0.402 | 0.342 | 0.427 | 0.374 | 0.401 | 0.471 |
| 数量感知 | T2I-Count↓ | 14.19 | 15.21 | 1.804 | 1.151 | 1.077 | 3.035 | 1.601 | 0.850 |
| 数量感知 | MAE (held-out)↓ | 15.7 | 15.68 | 5.3 | 4.18 | 3.68 | 4.83 | 3.58 | 2.93 |
| 美学偏好 | Aesthetic↑ | 6.139 | 6.310 | 6.853 | 6.935 | 6.879 | 6.869 | 6.909 | 7.012 |
pCNL vs MALA 步长对比实验¶
| 步长 | MALA接受率 | pCNL接受率 | MALA mIoU | pCNL mIoU |
|---|---|---|---|---|
| 0.05 | ~25% | ~80% | ~0.40 | ~0.43 |
| 0.5 | ~0% | ~50% | 退化 | ~0.47 |
| 2.0 | ~0% | ~25% | 退化 | ~0.45 |
关键发现¶
- 后验初始化 vs 先验初始化:所有后验初始化方法都优于先验初始化的SMC,证实了初始粒子质量的重要性
- pCNL vs ULA/MALA:ULA无MH修正导致偏差、MALA在高维空间接受率骤降;pCNL两者兼顾
- 单粒子方法严重不足:DPS和FreeDoM在所有任务上都远逊于SMC方法
- held-out奖励上的泛化:Ψ-Sampler不仅在训练奖励上最优,在held-out奖励上也表现最好,说明改进来自真正更高质量的样本
- 2D toy实验直观验证:在6模高斯混合分布上,MALA+SMC仍有模式遗漏,Ψ-Sampler完全覆盖目标分布
亮点与洞察¶
- 首次将pCN算法用于生成模型:将Bayesian逆问题中的高维MCMC技术迁移到生成模型的推理时对齐
- 诊断准确:清晰指出扩散系数衰减导致后期奖励引导失效的问题,因此将计算预算前置到初始化阶段
- 与蒸馏趋势的协同:当前模型趋向更直的轨迹和更好的早期Tweedie估计,这恰好使初始后验采样更有效
- 一致的理论-实验对应:从SOC框架推导的最优初始分布在实验中得到验证
局限与展望¶
- 假设奖励模型可微分——不适用于不可微奖励
- 依赖Tweedie近似的准确性——早期步的Tweedie估计对非蒸馏模型可能不够准确
- pCNL要求先验为高斯分布(即只能在 \(t=1\) 处应用)
- 固定步长策略,自适应步长可能进一步提升效率
- 可能被滥用于生成误导性或有害的超写实假图——需要负责任的部署
相关工作与启发¶
- 与TDS (Twisted Diffusion Sampler)、DAS等SMC方法互补:它们改进SMC中间步骤,Ψ-Sampler改进初始化
- pCN算法来自PDE约束的贝叶斯逆问题领域,跨领域迁移带来了显著增益
- 与LLM推理时scaling的思路一致:通过搜索而非微调来提升对齐效果
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首次在生成建模中引入pCN算法,初始后验采样的思路清晰有力
- 实验充分度: ⭐⭐⭐⭐ — 三个差异显著的任务+多维度指标+步长分析+toy实验
- 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,理论推导完整,但MCMC背景知识门槛较高
- 价值: ⭐⭐⭐⭐⭐ — 为推理时scaling提供了新维度(初始化质量),方法通用且与现有SMC方法正交
相关论文¶
- [NeurIPS 2025] Progressive Inference-Time Annealing of Diffusion Models for Sampling from Boltzmann Densities
- [NeurIPS 2025] Remasking Discrete Diffusion Models with Inference-Time Scaling
- [NeurIPS 2025] Learnable Sampler Distillation for Discrete Diffusion Models
- [NeurIPS 2025] Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation
- [NeurIPS 2025] Blind Strong Gravitational Lensing Inversion: Joint Inference of Source and Lens Mass with Score-Based Models