GuidedSampling: Steering LLMs Towards Diverse Candidate Solutions at Inference-Time¶
会议: ICLR 2026
arXiv: 2510.03777
代码: GitHub
领域: LLM效率 / 推理时计算 / 推理增强
关键词: inference-time scaling, repeated sampling, diversity, concept exploration, pass@k
一句话总结¶
提出 GuidedSampling 推理算法,将重复采样(RS)的隐式探索和生成过程显式解耦为两阶段:先迭代生成多样化的解题概念/定理,再基于各概念分别生成候选解。在 pass@50 上平均提升约 21.6%,微调后 pass@5 提升约 9.7%。
研究背景与动机¶
- 推理时计算扩展(inference-time scaling)是提升 LLM 性能的重要方向,比扩大模型更高效
- 重复采样(RS)是最简单的推理时算法,但存在严重的多样性不足:LLM 被训练为对同一输入生成单一正确响应
- 定量分析表明:Llama-3.2-3B 在 HumanEval 上生成 100 个候选方案平均仅使用 2.75 个不同概念;37% 的问题只尝试了一个概念
- 例如 MATH 中的最大值问题:RS 的 892/1000 个解都用了 "AM-GM 不等式",多数导致错误
- Tree-of-Thought(ToT)可提升多样性,但计算开销极高——需要在树的每一步显式评估候选思路
- 核心思路:将 RS 中隐式耦合的"探索"和"生成"阶段显式分离,以低成本实现高多样性
方法详解¶
整体框架¶
GuidedSampling 分两阶段: 1. 探索阶段(Exploration Phase):迭代生成 \(K\) 个多样化的概念/定理 2. 生成阶段(Generation Phase):为每个概念生成 \(M\) 个候选解(总预算 \(IC = K \times M\))
关键设计¶
设计1:迭代概念探索 - 做什么:给定问题 \(x\),迭代采样概念序列 \(c_1, c_2, \ldots, c_K\) - 核心思路:第 \(k\) 个概念以前序概念为条件生成 \(c_k \sim p_\theta(\cdot | x, c_{1:(k-1)})\),促进多样性——模型被鼓励探索已生成概念之外的新方向 - 设计动机:概念是问题层面的"高层指导"(如定理名称),一次性探索后复用,比 ToT 的逐步评估高效得多
设计2:概念引导的生成 - 做什么:对每个概念 \(c_k\),生成 \(M\) 个以该概念为条件的候选解 \(s_k^{(m)} \sim p_\theta(s | x, c_k)\) - 核心思路:概念-解法的显式绑定确保候选解覆盖多种不同的问题求解路径 - 设计动机:打破 RS 中"所有解共享同一隐式概念"的局限。GuidedSampling 生成的候选解平均多 17.63% 的独特概念
设计3:GuidedSampling 后训练 - 做什么:使用 GuidedSampling 生成轨迹作为合成训练数据 - 核心思路:两种训练数据格式——FA(仅最终答案:\((x, s)\))和 CAA(概念+答案:\((x, \text{concat}(\mathcal{C}, s))\)) - 设计动机:CAA 模式让模型内化多种推理策略,微调后 pass@5 平均提升 9.7%,泛化到 GPQA、HumanEval 等 OOD 基准
损失函数 / 训练策略¶
后训练采用标准微调损失: - FA 模式:\(\mathcal{L}_{FA} = -\mathbb{E}_{(x,s) \sim \mathcal{D}_{FA}} [\log P_\theta(s|x)]\) - CAA 模式:\(\mathcal{L}_{CAA} = -\mathbb{E}_{(x,\mathcal{C},s) \sim \mathcal{D}_{CAA}} [\log P_\theta(y|x)]\),其中 \(y = \text{concat}(\mathcal{C}, s)\)
理论保证(Theorem 1):当满足 \(k_{min} \cdot P(\mathcal{C}_r | x) > 1\)(即模型有足够概率生成相关概念且概念提供显著的放大因子)时,GuidedSampling 优于 RS。
实验关键数据¶
主实验¶
pass@50 改进(平均跨 Llama-3.2-3B, Qwen2.5-3B, Gemma-3-27B):
| 基准 | RS 基线 | GuidedSampling | 提升 |
|---|---|---|---|
| MATH | — | — | +21.8% |
| GPQA-Diamond | — | — | +11.87% |
| HumanEval | — | — | +11.28% |
| OlympiadBench | — | — | +3.08% |
| 平均 | — | — | +16.01% |
消融实验¶
微调后 pass@5 对比(Llama-3.2-3B-Instruct):
| 训练策略 | MATH | GPQA | HumanEval | Olympiad | 平均 |
|---|---|---|---|---|---|
| RS | 44.78 | 40.08 | 55.78 | 10.83 | 37.87 |
| STaR | 46.23 | 38.41 | 57.35 | 10.62 | 38.15 |
| ToT | 56.63 | 44.44 | 49.51 | 18.36 | 42.24 |
| FA (Ours) | 47.98 | 50.61 | 55.95 | 20.21 | 43.69 |
| CAA (Ours) | 60.06 | 40.23 | 59.03 | 21.66 | 45.25 |
多样性分析:RS 平均产生 4.04 个独特概念 vs GuidedSampling 4.75 个独特概念(+17.63%)
关键发现¶
- GuidedSampling 在几乎所有模型-基准组合上优于 RS。唯一例外:Qwen2.5-3B 在 HumanEval 上退化,因其代码领域概念生成能力弱(平均仅 1.13 个概念)
- 探索-生成的最佳分配存在甜点:增大 \(K\) 先提升再下降(概念多但每个概念的生成预算 \(M\) 不足)
- 早期概念(\(k=1\)-\(5\))平均质量更高(19.8%→16.2%),但后期概念(\(k \geq 6\))对少数需要深度探索的难题贡献关键
- 领域限制:在常识推理(CommonSenseQA)上 GuidedSampling 反而比 RS 差 3.28%——概念难以良定义的领域不适用
- CAA 训练模式显著优于 FA,说明让模型学习"先探索概念再解题"的完整轨迹更有效
- 计算开销方面,概念生成是一次性的序列调用,远小于 RS 的 100 次采样总量
亮点与洞察¶
- 简洁的设计哲学:仅通过将"隐式探索+生成"解耦为"显式探索→引导生成"就获得巨大收益
- 理论分析得当:Theorem 1 精确描述了 GuidedSampling 优于 RS 的充要条件,两个路径(概念覆盖 + 不相关概念恢复)提供了清晰的分析框架
- 后训练的双重价值:GuidedSampling 不仅是推理策略,还是高质量合成数据生成器——CAA 微调显著提升 pass@k
- AM-GM 不等式的例子极具说服力:892/1000 的 RS 解使用同一定理导致错误
- 方法的可组合性强:可与 RL(如 pass@k 优化)、majority voting 等技术叠加使用
局限性 / 可改进方向¶
- 领域限制明显:对概念难以良定义的任务(常识推理)效果差,适用范围受限于有明确概念/定理的领域
- 模型依赖性强:Qwen2.5-3B 在 HumanEval 上只能生成 1.13 个概念——概念生成能力弱的模型无法受益
- 概念生成阶段为序列迭代,无法并行化,在极大 \(K\) 时成为瓶颈
- 仅在 3B 级小模型上做了主要实验,7B+ 大模型的表现需要验证
- 概念质量评估完全依赖 Qwen2.5-32B 提取——如果提取器本身不准确,多样性数据可能有偏差
相关工作与启发¶
- Repeated Sampling(Cobbe et al., 2021):最简单的推理时扩展,但多样性不足
- Tree-of-Thought(Yao et al., 2023):结构化探索,但计算开销高;GuidedSampling 在多样性和效率间找到更好平衡
- Self-Taught Reasoner (STaR)(Zelikman et al., 2022):利用推理轨迹微调,但未显式管理多样性
- 启发:探索-生成解耦思想可推广到代码生成(先规划算法再实现)、科学发现等领域
评分¶
- 新颖性: ⭐⭐⭐⭐ 探索-生成解耦的思路简洁有效,但核心 idea 相对直觉("先想方法再做题")
- 实验充分度: ⭐⭐⭐⭐ 多基准多模型、理论分析、后训练实验丰富,但主要集中在 3B 模型
- 写作质量: ⭐⭐⭐⭐ 结构清晰,AM-GM 的 motivating example 极好,但部分细节(如概念定义的精确性)可以更明确
- 价值: ⭐⭐⭐⭐ 在推理时计算扩展领域有实际价值,但领域限制(需要良定义的概念)降低了通用性