跳转至

Self-Training Elicits Concise Reasoning in Large Language Models

会议: ACL 2025
arXiv: 2502.20122
代码: https://github.com/TergelMunkhbat/concise-reasoning (有)
领域: LLM推理
关键词: 简洁推理, 自训练, Best-of-N采样, Few-shot条件化, token效率

一句话总结

发现 LLM 输出分布中天然包含简洁推理路径,提出 FS-BoN(Few-shot 条件化 + Best-of-N 采样)自训练框架,从模型自身分布中筛选短且正确的推理样本进行微调,在 GSM8K 和 MATH 上跨 5 个模型族实现平均 30% token 缩减且不损准确率,效率为先前方法 Rational Metareasoning 的 2.4 倍。

研究背景与动机

  1. 领域现状:CoT 推理已成为 LLM 解决复杂推理任务的标配,但生成的推理链天然冗长——包含大量冗余的解释、重复的步骤说明和无关的上下文确认。推理 token 的数量与推理延迟大致成正比,直接影响部署成本。
  2. 现有痛点:已有的零样本提示方法(如"Be Concise"、"Fixed Budget")试图直接指示模型生成更短推理,但效果不一致——Fixed Budget 方法虽缩短 32.2% 长度,却损失 10.1% 准确率;更致命的是,这些方法在数学专精模型(如 Qwen2.5-Math)上几乎完全无效,说明零样本提示无法可靠地操控经过大量后训练的模型的内部表征。
  3. 核心矛盾:LLM 的 CoT 能力来自预训练数据中的程序性知识,这些知识本身并未针对简洁性优化。加上 RLHF/DPO 等后训练阶段也不会鼓励简洁推理(甚至 "thinking" 模型被强化为使用更多 token),模型的默认行为自然倾向于冗长。
  4. 本文要解决什么:如何在不损害准确率的前提下,可靠地缩短 LLM 推理链中的冗余 token?子问题包括:(a) 模型是否具备简洁推理的潜在能力?(b) 如何高效提取简洁推理样本?(c) 如何将推理时的简洁能力内化为模型默认行为?
  5. 切入角度:作者对多个模型在 GSM8K 上采样 16 条推理路径,发现正确路径的归一化长度分布有大量质量落在平均长度以下——例如 DeepSeekMath-7B 有 8.37% 的正确解长度不到平均值的一半。这说明简洁推理已经存在于模型的输出分布中,只是默认解码不会选中它们。
  6. 核心 idea 一句话:通过 Few-shot 条件化引导 + Best-of-N 采样筛选,从模型自身分布中提取简洁正确的推理路径,再用标准微调将这种能力内化,实现零推理开销的简洁推理。

方法详解

整体框架

输入:一个目标任务的训练集(如 GSM8K/MATH 训练集)+ 预训练好的 LLM。 输出:微调后的 LLM,默认生成简洁推理链。

Pipeline 分为三个阶段: 1. 数据生成:对训练集中每个问题,使用 FS-BoN 策略采样多条推理路径,从中选出最短的正确路径 2. 样本增强:将 FS-BoN 采样与朴素 BoN 采样的结果合并,确保困难问题也有正确解覆盖 3. 标准微调:用筛选后的简洁推理路径对模型进行 SFT,将简洁能力内化

关键设计

  1. 朴素 Best-of-N 采样(Naive BoN):
  2. 做什么:对每个训练问题采样 \(N\) 条推理路径,选最短的正确路径作为训练样本
  3. 核心思路:利用模型输出的随机性,从长度分布的左尾(较短端)采集样本。关键设计是逐问题选择而非全局选最短——因为难题本身需要更长推理,全局选择会丢失难题的监督信号
  4. 设计动机:直接利用模型已有的简洁推理能力,无需外部数据。但存在对数线性的采样效率衰减——\(N\) 每翻倍,长度缩减的边际收益递减
  5. 与先前方法区别:Rational Metareasoning (De Sabbata et al., 2024) 也用 BoN 但加了平衡效率和准确率的奖励函数+迭代训练,实验证明这些额外设计并无显著收益

  6. Few-shot 条件化采样(FS):

  7. 做什么:在采样推理路径时,用 8 个简洁推理示例作为 few-shot prompt 引导模型生成更短的推理
  8. 核心思路:利用 LLM 的 in-context learning 能力,通过示例偏移输出分布的长度。考虑三种示例来源:人工标注(FS-Human,来自 Wei et al. 2022 的 CoT 示例)、GPT-4o 生成(FS-GPT4o)、模型自生成(FS-Self)
  9. 设计动机:Few-shot 条件化的长度缩减效果远超 BoN——FS-Human 的单次采样即可超过 \(N=256\) 的 BoN 采样效果,采样效率提升数个数量级。因为 few-shot 直接在概率模型层面偏移了整个长度分布,而 BoN 只是从原始分布的尾部采样
  10. 关键发现:FS-GPT4o 在保持准确率方面最优,FS-Human 长度缩减最大但准确率略有下降

  11. Few-shot 条件化 BoN(FS-BoN):

  12. 做什么:在 few-shot 条件下再叠加 BoN 采样,双重缩减
  13. 核心思路:FS 和 BoN 的缩减效果大致独立且可叠加——FS 负责整体偏移分布中心,BoN 负责从偏移后的分布中进一步选出最短样本。使用 GPT-4o 示例作为 FS prompt(FS-GPT4o-BoN),因为 GPT-4o 示例在保准确率方面最好
  14. 与直接推理时使用的区别:直接在测试时用 BoN+FS 需要反复采样和长 prompt,计算开销巨大(违背缩减成本的目标);而自训练将收益内化为模型参数,推理时零额外开销

  15. 样本增强(Sample Augmentation):

  16. 做什么:对 FS 和 FS-BoN 方法,额外从朴素 BoN(不加 few-shot prompt)采 \(N\) 条路径,与 FS/FS-BoN 的候选合并,选最短正确路径
  17. 核心思路:Few-shot 示例的适应性有限——对非常简单的问题可能引入不必要步骤,对非常困难的问题可能抑制必要的长推理。增强样本来自原始分布,能更好覆盖难题
  18. 设计动机:实验表明增强后准确率显著提升,同时长度缩减仍优于朴素 BoN 和 RM

损失函数 / 训练策略

  • 使用标准 SFT(supervised fine-tuning)损失,对筛选后的简洁推理路径做语言建模
  • 每个问题一条训练样本(最短正确路径)
  • 训练成本极低,相比数据生成阶段可忽略不计
  • 生成预算分配:朴素 BoN 每题 16 条路径;FS 每题 1 条 + 16 条增强;FS-BoN 每题 16 条 + 16 条增强(Budget-Matched 设置:各 8 条)

实验关键数据

主实验

5 个模型族(Llama-3.2-3B, Gemma-2-2B, Qwen2.5-3B, Qwen2.5-Math-1.5B, DeepSeekMath-7B),在 GSM8K 和 MATH 上的平均结果:

方法 GSM8K Acc (%) GSM8K Len (tokens) MATH Acc (%) MATH Len (tokens) 相对准确率 相对长度
Baseline (zero-shot) 78.06 241.87 46.40 480.37 100% 100%
Be Concise 77.98 214.87 47.76 446.09 99.9% 88.5%
Fixed Budget 89.9% 67.8%
Naive BoN (N=16) 77.12 214.22 47.64 433.26 98.8% 87.2%
Rational Metareasoning 76.15 207.49 47.56 432.56 97.2% 84.9%
FS-GPT4o 78.07 175.54 47.36 421.21 99.9% 73.2%
FS-GPT4o-BoN 75.88 153.38 47.36 364.33 97.0% 64.3%
FS-GPT4o-BoN (Budget-Matched) 76.24 160.59 47.52 384.43 97.4% 67.2%

消融实验

配置 相对长度 (GSM8K) 相对准确率 (GSM8K) 说明
FS-GPT4o-BoN(完整) 64.25% 97.00% 最大缩减,准确率略降
FS-GPT4o(不加 BoN) 73.15% 99.94% 准确率几乎不变,缩减稍弱
Naive BoN(不加 FS) 87.17% 98.79% 缩减有限
FS-GPT4o-BoN 不加增强 更短 更低 增强提升准确率
Direct Answer(不用 CoT) 1.36% 24.88% 准确率崩塌
Human CoT(外部数据微调) 54.95% 83.82% 长度短但准确率大幅下降

关键发现

  • FS-BoN 贡献最大:FS-GPT4o-BoN 实现 64.3% 相对长度(缩减 35.7%),是 Naive BoN(缩减 12.8%)的近 3 倍效率
  • 自训练 vs 外部数据:用外部数据(Human CoT / GPT-4o CoT)微调虽然大幅缩短长度,但准确率下降严重(-16%~-24%),位于 Pareto 前沿以下;自训练方法因为训练数据来自模型自身分布,更好保留推理能力
  • 自适应长度分配:在 MATH 的 5 个难度级别上,简单题(Level 1-2)缩减 20%-40%,难题(Level 5)仅缩减约 5%,说明模型学会了根据题目难度自适应分配 token 预算
  • 模型规模一致性:Llama 1B/3B/8B 的缩放实验表明,模型越大 token 缩减越多;FS-GPT4o-BoN 在所有规模上都是缩减最大的方法
  • 跨领域泛化:在 MMLU-Pro 的商业/化学/物理推理任务上,方法同样有效——平均准确率提升 16.51%,长度缩减 26.82%
  • 实际效率增益:wall-clock 延迟降低 15.4%-52.9%,内存使用减少 2.5%-6.3%

亮点与洞察

  • "简洁推理是潜在能力而非缺失能力":模型已经具备简洁推理的能力,只是默认采样不会触及。这个观察类似于对齐领域的 Superficial Alignment Hypothesis——模型的能力早已存在,只需轻量微调即可释放。这启示我们不需要从零教会模型新能力,而是引导它使用已有能力
  • FS 与 BoN 的独立可加性:few-shot 条件化偏移了整个输出长度分布的均值,BoN 采样从尾部选优。二者在不同维度上操作,因此效果近似可加。这种"分布偏移 + 尾部采样"的组合思路可以迁移到其他需要控制生成属性的场景(如控制输出风格、毒性等)
  • 自训练的优雅性:将推理时的多次采样开销转化为一次性训练开销。训练后的模型直接生成简洁推理,零额外推理成本。这种"训练时投入换推理时省开销"的思路对 thinking model(如 DeepSeek-R1、o1)的效率优化有直接指导意义
  • 逐问题选择 vs 全局选择:BoN 采样时按问题选最短正确路径而非全局选最短,确保了难题也有训练信号。这个看似微小的设计决策体现了对数据质量的细致考量

局限性 / 可改进方向

  • 任务范围有限:仅在数学推理(GSM8K/MATH)上做了主实验,虽然在 MMLU-Pro 上有初步验证,但自然语言推理、代码生成等领域尚未涉及。特别是对于需要多步隐式推理的任务(如常识推理),简洁化是否会损失关键信息仍不明确
  • BoN 数据生成阶段仍昂贵:虽然推理时无额外开销,但训练数据生成需要对每个问题采样 16-32 条路径,对于大规模训练集仍然是不小的计算投入
  • 简洁 ≠ 可解释:作者未讨论简洁推理对可解释性的影响。更短的推理链可能省略了中间步骤的显式说明,使人类更难理解模型的推理过程
  • 未考虑强化学习方法:仅使用标准 SFT,未探索 RL-based 训练(如用长度惩罚的 PPO/DPO),可能错过更大的优化空间
  • 未应用于 thinking model:论文在 Discussion 中提到对 thinking model(o1/R1)的潜在价值,但未做实验验证。这类模型的内部推理动辄数千 token,简洁化的收益可能更大
  • 改进方向:(1) 对错误推理路径做 early termination 以进一步减少无效 token;(2) 将方法扩展到多任务设置避免逐任务微调;(3) 结合 RL 训练引入长度奖励信号

相关工作与启发

  • vs Rational Metareasoning (De Sabbata et al., 2024):RM 同样基于 BoN 自训练,但额外引入平衡效率和准确率的奖励函数 + 迭代训练。实验证明这些额外设计没有带来显著收益(Table 2 中 RM 与 Naive BoN 结果相近),说明简单地选最短正确路径就足够了。本文的 FS-BoN 方法在长度缩减上是 RM 的 2.4 倍
  • vs Token-Budget-Aware (Han et al., 2024) / Fixed Budget (Nayab et al., 2024):这些方法通过零样本提示控制输出长度,但存在准确率-长度的剧烈 trade-off。本文方法通过自训练绕过了这个问题
  • vs DeepSeek-R1 / o1 的 thinking 范式:thinking model 用更多 token 换更高准确率,本文则反过来——在不损准确率的前提下用更少 token。两个方向互补,未来可能融合(先用 thinking 确保质量,再用自训练压缩)
  • 与 RLHF/DPO 的联系:本文的自训练本质上是一种简化的 best-of-N distillation,与 RLHF 中的 rejection sampling fine-tuning 思路一致。区别在于这里的"奖励"是正确性 + 最短长度,而非人类偏好

评分

  • 新颖性: ⭐⭐⭐⭐ "模型输出分布中已包含简洁推理"的发现有洞察力,FS-BoN 组合虽然每个组件都简单但组合效果显著
  • 实验充分度: ⭐⭐⭐⭐⭐ 5 个模型族 × 2 个数据集 + 3 个跨领域数据集 + 缩放实验 + 详尽消融 + 实际延迟测量,非常扎实
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,从观察到方法到实验的推导自然,图表丰富
  • 价值: ⭐⭐⭐⭐ 对 LLM 推理效率有直接实用意义,特别是对 thinking model 的效率优化有启示