Free Lunch for Pass@k? Low Cost Diverse Sampling for Diffusion Language Models¶
日期: 2026-03-05
arXiv: 2603.04893
代码: 无(暂未公开)
领域: LLM推理
关键词: diverse sampling, Pass@k, diffusion language model, orthogonal projection, code generation
一句话总结¶
ODD(Orthogonal Diverse Decoding)通过在扩散语言模型采样时顺序投影 logits 远离先前样本子空间,以几乎零开销(+5.8%)实现 HumanEval Pass@16 从 24.7% 提升至 45.1%。
研究背景与动机¶
- 领域现状:Pass@k 策略(生成 k 个候选选最佳)在代码生成和数学推理中非常有效,但依赖于样本的多样性——如果 k 个样本都类似,Pass@k 收益递减。
- 现有痛点:(1) 自回归 LM 生成的样本多样性受限于温度参数,高温损害质量;(2) 扩散语言模型(DLM)天然支持并行采样,但默认采样仍缺乏多样性保证。
- 核心矛盾:多样性和质量之间的 trade-off——温度太高质量下降,太低多样性不足。
- 切入角度:利用 DLM 的独特结构——在扩散去噪过程中显式地让后续样本远离已有样本的表示子空间。
方法详解¶
整体框架¶
ODD 在 DLM 的每一步去噪中,将当前样本的 logits 投影到之前所有样本 logits 的正交补空间,迫使新样本在语义上区别于已有样本。
关键设计¶
-
正交投影:
- 收集前 k-1 个样本在每个时间步的 logits \(\{l_1, l_2, ..., l_{k-1}\}\)
- 对第 k 个样本的 logits 做 Gram-Schmidt 正交化,投影到已有子空间的正交补
- 强度由 α 控制:\(l_k' = l_k + \alpha \cdot (l_k - \text{proj}_V(l_k))\)
-
质量加权:
- 不同位置的多样性需求不同——对模型不确定的位置增加多样性,确定的位置保持
- 根据原始 logits 的熵加权正交化强度
-
几乎零开销:
- Gram-Schmidt 正交化计算量相对于模型推理几乎可忽略
- 时间增加仅 3.9-5.8%(22.5s → 23.8s)
实验关键数据¶
主实验¶
| 方法 | GSM8K Pass@64↑ | HumanEval Pass@16↑ | 时间开销 |
|---|---|---|---|
| 标准采样 | 68.8% | 24.7% | 22.5s |
| 高温采样 | 72.1% | 30.2% | 22.5s |
| ODD (α=0.5) | 87.9% | 45.1% | 23.8s |
消融实验¶
| α 值 | GSM8K Pass@64 | 质量保持 |
|---|---|---|
| 0.0(标准) | 68.8% | 最佳 |
| 0.3 | 81.2% | 好 |
| 0.5 | 87.9% | 好 |
| 1.0 | 85.1% | 略降 |
关键发现¶
- ODD 在 GSM8K 上 Pass@64 提升 19.1%(68.8% → 87.9%),几乎免费
- HumanEval Pass@16 接近翻倍(24.7% → 45.1%)
- 开销极小(+5.8%),与模型规模无关
- α=0.5 是最佳甜点——多样性和质量的最优平衡
亮点与洞察¶
- 利用 DLM 结构的巧妙设计:正交投影只在 DLM 中可行(需要连续的 logits 空间),对自回归模型不直接适用
- 几乎免费的午餐:<6% 开销换取 20-30% 的 Pass@k 提升,性价比极高
- Gram-Schmidt 的优雅应用:将经典线性代数方法用于 NLP 多样性生成
局限性 / 可改进方向¶
- 仅验证了 DLM(扩散语言模型),自回归 LM 需要不同方法
- DLM 本身相比自回归模型尚未主流化
- 大 k 值下正交化效果可能饱和(子空间维度有限)
评分¶
- 新颖性: ⭐⭐⭐⭐ 正交投影用于多样性采样,简洁有效
- 实验充分度: ⭐⭐⭐⭐ 多任务、多α值消融
- 写作质量: ⭐⭐⭐⭐ 清晰直观
- 价值: ⭐⭐⭐⭐ 为 DLM 的实际应用提供了关键改进