Free Lunch for Pass@k? Low Cost Diverse Sampling for Diffusion Language Models¶

日期: 2026-03-05
arXiv: 2603.04893
代码: 无（暂未公开）
领域: LLM推理
关键词: diverse sampling, Pass@k, diffusion language model, orthogonal projection, code generation

一句话总结¶

ODD（Orthogonal Diverse Decoding）通过在扩散语言模型采样时顺序投影 logits 远离先前样本子空间，以几乎零开销（+5.8%）实现 HumanEval Pass@16 从 24.7% 提升至 45.1%。

研究背景与动机¶

领域现状：Pass@k 策略（生成 k 个候选选最佳）在代码生成和数学推理中非常有效，但依赖于样本的多样性——如果 k 个样本都类似，Pass@k 收益递减。
现有痛点：(1) 自回归 LM 生成的样本多样性受限于温度参数，高温损害质量；(2) 扩散语言模型（DLM）天然支持并行采样，但默认采样仍缺乏多样性保证。
核心矛盾：多样性和质量之间的 trade-off——温度太高质量下降，太低多样性不足。
切入角度：利用 DLM 的独特结构——在扩散去噪过程中显式地让后续样本远离已有样本的表示子空间。

方法详解¶

整体框架¶

ODD 在 DLM 的每一步去噪中，将当前样本的 logits 投影到之前所有样本 logits 的正交补空间，迫使新样本在语义上区别于已有样本。

关键设计¶

正交投影：
- 收集前 k-1 个样本在每个时间步的 logits \(\{l_1, l_2, ..., l_{k-1}\}\)
- 对第 k 个样本的 logits 做 Gram-Schmidt 正交化，投影到已有子空间的正交补
- 强度由 α 控制：\(l_k' = l_k + \alpha \cdot (l_k - \text{proj}_V(l_k))\)
质量加权：
- 不同位置的多样性需求不同——对模型不确定的位置增加多样性，确定的位置保持
- 根据原始 logits 的熵加权正交化强度
几乎零开销：
- Gram-Schmidt 正交化计算量相对于模型推理几乎可忽略
- 时间增加仅 3.9-5.8%（22.5s → 23.8s）

实验关键数据¶

主实验¶

方法	GSM8K Pass@64↑	HumanEval Pass@16↑	时间开销
标准采样	68.8%	24.7%	22.5s
高温采样	72.1%	30.2%	22.5s
ODD (α=0.5)	87.9%	45.1%	23.8s

消融实验¶

α 值	GSM8K Pass@64	质量保持
0.0（标准）	68.8%	最佳
0.3	81.2%	好
0.5	87.9%	好
1.0	85.1%	略降

关键发现¶

ODD 在 GSM8K 上 Pass@64 提升 19.1%（68.8% → 87.9%），几乎免费
HumanEval Pass@16 接近翻倍（24.7% → 45.1%）
开销极小（+5.8%），与模型规模无关
α=0.5 是最佳甜点——多样性和质量的最优平衡

亮点与洞察¶

利用 DLM 结构的巧妙设计：正交投影只在 DLM 中可行（需要连续的 logits 空间），对自回归模型不直接适用
几乎免费的午餐：<6% 开销换取 20-30% 的 Pass@k 提升，性价比极高
Gram-Schmidt 的优雅应用：将经典线性代数方法用于 NLP 多样性生成

局限性 / 可改进方向¶

仅验证了 DLM（扩散语言模型），自回归 LM 需要不同方法
DLM 本身相比自回归模型尚未主流化
大 k 值下正交化效果可能饱和（子空间维度有限）

评分¶

新颖性: ⭐⭐⭐⭐ 正交投影用于多样性采样，简洁有效
实验充分度: ⭐⭐⭐⭐ 多任务、多α值消融
写作质量: ⭐⭐⭐⭐ 清晰直观
价值: ⭐⭐⭐⭐ 为 DLM 的实际应用提供了关键改进