跳转至

Free Lunch for Pass@k? Low Cost Diverse Sampling for Diffusion Language Models

日期: 2026-03-05
arXiv: 2603.04893
代码: 无(暂未公开)
领域: LLM推理
关键词: diverse sampling, Pass@k, diffusion language model, orthogonal projection, code generation

一句话总结

ODD(Orthogonal Diverse Decoding)通过在扩散语言模型采样时顺序投影 logits 远离先前样本子空间,以几乎零开销(+5.8%)实现 HumanEval Pass@16 从 24.7% 提升至 45.1%。

研究背景与动机

  1. 领域现状:Pass@k 策略(生成 k 个候选选最佳)在代码生成和数学推理中非常有效,但依赖于样本的多样性——如果 k 个样本都类似,Pass@k 收益递减。
  2. 现有痛点:(1) 自回归 LM 生成的样本多样性受限于温度参数,高温损害质量;(2) 扩散语言模型(DLM)天然支持并行采样,但默认采样仍缺乏多样性保证。
  3. 核心矛盾:多样性和质量之间的 trade-off——温度太高质量下降,太低多样性不足。
  4. 切入角度:利用 DLM 的独特结构——在扩散去噪过程中显式地让后续样本远离已有样本的表示子空间。

方法详解

整体框架

ODD 在 DLM 的每一步去噪中,将当前样本的 logits 投影到之前所有样本 logits 的正交补空间,迫使新样本在语义上区别于已有样本。

关键设计

  1. 正交投影

    • 收集前 k-1 个样本在每个时间步的 logits \(\{l_1, l_2, ..., l_{k-1}\}\)
    • 对第 k 个样本的 logits 做 Gram-Schmidt 正交化,投影到已有子空间的正交补
    • 强度由 α 控制:\(l_k' = l_k + \alpha \cdot (l_k - \text{proj}_V(l_k))\)
  2. 质量加权

    • 不同位置的多样性需求不同——对模型不确定的位置增加多样性,确定的位置保持
    • 根据原始 logits 的熵加权正交化强度
  3. 几乎零开销

    • Gram-Schmidt 正交化计算量相对于模型推理几乎可忽略
    • 时间增加仅 3.9-5.8%(22.5s → 23.8s)

实验关键数据

主实验

方法 GSM8K Pass@64↑ HumanEval Pass@16↑ 时间开销
标准采样 68.8% 24.7% 22.5s
高温采样 72.1% 30.2% 22.5s
ODD (α=0.5) 87.9% 45.1% 23.8s

消融实验

α 值 GSM8K Pass@64 质量保持
0.0(标准) 68.8% 最佳
0.3 81.2%
0.5 87.9%
1.0 85.1% 略降

关键发现

  • ODD 在 GSM8K 上 Pass@64 提升 19.1%(68.8% → 87.9%),几乎免费
  • HumanEval Pass@16 接近翻倍(24.7% → 45.1%)
  • 开销极小(+5.8%),与模型规模无关
  • α=0.5 是最佳甜点——多样性和质量的最优平衡

亮点与洞察

  • 利用 DLM 结构的巧妙设计:正交投影只在 DLM 中可行(需要连续的 logits 空间),对自回归模型不直接适用
  • 几乎免费的午餐:<6% 开销换取 20-30% 的 Pass@k 提升,性价比极高
  • Gram-Schmidt 的优雅应用:将经典线性代数方法用于 NLP 多样性生成

局限性 / 可改进方向

  • 仅验证了 DLM(扩散语言模型),自回归 LM 需要不同方法
  • DLM 本身相比自回归模型尚未主流化
  • 大 k 值下正交化效果可能饱和(子空间维度有限)

评分

  • 新颖性: ⭐⭐⭐⭐ 正交投影用于多样性采样,简洁有效
  • 实验充分度: ⭐⭐⭐⭐ 多任务、多α值消融
  • 写作质量: ⭐⭐⭐⭐ 清晰直观
  • 价值: ⭐⭐⭐⭐ 为 DLM 的实际应用提供了关键改进