Saber: Efficient Sampling with Adaptive Acceleration and Backtracking Enhanced Remasking for DLMs¶

会议: ACL 2026
arXiv: 2510.18165
代码: GitHub
领域: 代码生成 / 扩散语言模型
关键词: 扩散语言模型, 自适应采样, 回溯重遮蔽, 代码生成加速, 速度-质量权衡

一句话总结¶

本文提出 Saber，一个面向扩散语言模型（DLM）的免训练采样算法，通过自适应加速（根据已建立的上下文动态调整并行解码量）和回溯增强重遮蔽（撤销被新上下文证伪的 token）两种策略，在代码生成上平均提升 Pass@1 1.9% 的同时实现 251.4% 的推理加速。

领域现状：DLM（如 LLaDA、Dream）通过迭代去遮蔽实现并行生成，是自回归模型的有力替代。但在代码生成等结构约束强的任务上，减少采样步数会导致 Pass@1 灾难性暴跌（甚至超过 60%）。

现有痛点：(1) 静态加速策略（固定 token 数或置信度阈值）对简单阶段太保守、对复杂阶段太激进；(2) DLM 的解码是不可逆的——一旦 token 被解遮蔽就无法撤销，早期错误会永久锁定并传播。

核心矛盾：并行生成的速度优势 vs 错误传播导致的质量崩溃——需要同时解决非均匀难度和错误累积两个问题。

本文目标：设计一种能自适应调整并行度且允许自我修正的 DLM 采样方法。

切入角度：两个关键洞察——(1) 生成难度随上下文建立而递减（置信度单调上升）；(2) 已生成 token 的置信度会随新上下文变化（可能从高变低）。

核心 idea：自适应阈值 + 回溯重遮蔽——早期谨慎（少量解遮蔽）+后期激进（大量并行），同时允许撤销"后悔"的 token。

每步两阶段：(1) 自适应加速——用动态阈值 \(\tau_t\)（已解遮蔽 token 的平均置信度）决定哪些新 token 可被解遮蔽；(2) 回溯重遮蔽——重新评估已解遮蔽 token 在新上下文下的置信度，将置信度下降最大的 \(\mu_t\) 个 token 重新遮蔽。

自适应动态阈值加速:
- 功能：根据生成进度自然调整并行度
- 核心思路：\(\tau_t = \frac{1}{|\mathcal{U}_{t-1}|} \sum_{j \in \mathcal{U}_{t-1}} c_j^{\text{unmask}}\)，即已解遮蔽 token 的平均解遮蔽时置信度。所有置信度超过 \(\tau_t\) 的遮蔽 token 被选入草稿集 \(\mathcal{D}_t\)
- 设计动机：\(\tau_t\) 自然随进度上升——早期上下文稀疏时均值低只解遮蔽最确定的 token，后期上下文丰富时均值高允许大量并行
回溯增强重遮蔽:
- 功能：撤销在新上下文下被证伪的早期决策
- 核心思路：重遮蔽数量 \(\mu_t = \max(1, \lfloor |\mathcal{D}_t| / \mu \rfloor)\) 与当前步的激进程度成正比。对每个已解遮蔽 token 计算置信度下降 \(\Delta_j = c_j^{t-1} - c_j^t\)，选择下降最大的 \(\mu_t\) 个重新遮蔽
- 设计动机：传统 DLM 采样不可逆——过早锁定的错误 token 会破坏后续所有步骤的上下文。回溯机制使模型能"反悔"，从根本上解决错误传播问题
无训练设计:
- 功能：可直接应用于任何 DLM 无需重新训练
- 核心思路：Saber 仅修改采样过程中的 token 选择和撤销策略，不修改模型权重或架构
- 设计动机：与改进 DLM 训练的研究正交——Saber 可以叠加在任何 DLM 上

免训练方法。在 LLaDA-8B-Instruct 上实验，温度 0，生成长度 256 token。

代码生成 Pass@1 和推理速度

方法	HumanEval Pass@1	MBPP Pass@1	平均步数	相对加速
Confidence (标准)	43.29	42.86	256	1.0x
Fast-dLLM	38.54	38.95	~80	~3.2x
Saber	45.12	44.76	~72	~3.5x