Self-Training Elicits Concise Reasoning in Large Language Models¶

会议: ACL 2025
arXiv: 2502.20122
代码: https://github.com/TergelMunkhbat/concise-reasoning (有)
领域: LLM推理
关键词: 简洁推理, 自训练, Best-of-N采样, Few-shot条件化, token效率

一句话总结¶

发现 LLM 输出分布中天然包含简洁推理路径，提出 FS-BoN（Few-shot 条件化 + Best-of-N 采样）自训练框架，从模型自身分布中筛选短且正确的推理样本进行微调，在 GSM8K 和 MATH 上跨 5 个模型族实现平均 30% token 缩减且不损准确率，效率为先前方法 Rational Metareasoning 的 2.4 倍。

研究背景与动机¶

领域现状：CoT 推理已成为 LLM 解决复杂推理任务的标配，但生成的推理链天然冗长——包含大量冗余的解释、重复的步骤说明和无关的上下文确认。推理 token 的数量与推理延迟大致成正比，直接影响部署成本。
现有痛点：已有的零样本提示方法（如"Be Concise"、"Fixed Budget"）试图直接指示模型生成更短推理，但效果不一致——Fixed Budget 方法虽缩短 32.2% 长度，却损失 10.1% 准确率；更致命的是，这些方法在数学专精模型（如 Qwen2.5-Math）上几乎完全无效，说明零样本提示无法可靠地操控经过大量后训练的模型的内部表征。
核心矛盾：LLM 的 CoT 能力来自预训练数据中的程序性知识，这些知识本身并未针对简洁性优化。加上 RLHF/DPO 等后训练阶段也不会鼓励简洁推理（甚至 "thinking" 模型被强化为使用更多 token），模型的默认行为自然倾向于冗长。
本文要解决什么：如何在不损害准确率的前提下，可靠地缩短 LLM 推理链中的冗余 token？子问题包括：(a) 模型是否具备简洁推理的潜在能力？(b) 如何高效提取简洁推理样本？(c) 如何将推理时的简洁能力内化为模型默认行为？
切入角度：作者对多个模型在 GSM8K 上采样 16 条推理路径，发现正确路径的归一化长度分布有大量质量落在平均长度以下——例如 DeepSeekMath-7B 有 8.37% 的正确解长度不到平均值的一半。这说明简洁推理已经存在于模型的输出分布中，只是默认解码不会选中它们。
核心 idea 一句话：通过 Few-shot 条件化引导 + Best-of-N 采样筛选，从模型自身分布中提取简洁正确的推理路径，再用标准微调将这种能力内化，实现零推理开销的简洁推理。

方法详解¶

整体框架¶

输入：一个目标任务的训练集（如 GSM8K/MATH 训练集）+ 预训练好的 LLM。输出：微调后的 LLM，默认生成简洁推理链。

Pipeline 分为三个阶段： 1. 数据生成：对训练集中每个问题，使用 FS-BoN 策略采样多条推理路径，从中选出最短的正确路径 2. 样本增强：将 FS-BoN 采样与朴素 BoN 采样的结果合并，确保困难问题也有正确解覆盖 3. 标准微调：用筛选后的简洁推理路径对模型进行 SFT，将简洁能力内化

关键设计¶

朴素 Best-of-N 采样（Naive BoN）:
做什么：对每个训练问题采样 \(N\) 条推理路径，选最短的正确路径作为训练样本
核心思路：利用模型输出的随机性，从长度分布的左尾（较短端）采集样本。关键设计是逐问题选择而非全局选最短——因为难题本身需要更长推理，全局选择会丢失难题的监督信号
设计动机：直接利用模型已有的简洁推理能力，无需外部数据。但存在对数线性的采样效率衰减——\(N\) 每翻倍，长度缩减的边际收益递减
与先前方法区别：Rational Metareasoning (De Sabbata et al., 2024) 也用 BoN 但加了平衡效率和准确率的奖励函数+迭代训练，实验证明这些额外设计并无显著收益
Few-shot 条件化采样（FS）:
做什么：在采样推理路径时，用 8 个简洁推理示例作为 few-shot prompt 引导模型生成更短的推理
核心思路：利用 LLM 的 in-context learning 能力，通过示例偏移输出分布的长度。考虑三种示例来源：人工标注（FS-Human，来自 Wei et al. 2022 的 CoT 示例）、GPT-4o 生成（FS-GPT4o）、模型自生成（FS-Self）
设计动机：Few-shot 条件化的长度缩减效果远超 BoN——FS-Human 的单次采样即可超过 \(N=256\) 的 BoN 采样效果，采样效率提升数个数量级。因为 few-shot 直接在概率模型层面偏移了整个长度分布，而 BoN 只是从原始分布的尾部采样
关键发现：FS-GPT4o 在保持准确率方面最优，FS-Human 长度缩减最大但准确率略有下降
Few-shot 条件化 BoN（FS-BoN）:
做什么：在 few-shot 条件下再叠加 BoN 采样，双重缩减
核心思路：FS 和 BoN 的缩减效果大致独立且可叠加——FS 负责整体偏移分布中心，BoN 负责从偏移后的分布中进一步选出最短样本。使用 GPT-4o 示例作为 FS prompt（FS-GPT4o-BoN），因为 GPT-4o 示例在保准确率方面最好
与直接推理时使用的区别：直接在测试时用 BoN+FS 需要反复采样和长 prompt，计算开销巨大（违背缩减成本的目标）；而自训练将收益内化为模型参数，推理时零额外开销
样本增强（Sample Augmentation）:
做什么：对 FS 和 FS-BoN 方法，额外从朴素 BoN（不加 few-shot prompt）采 \(N\) 条路径，与 FS/FS-BoN 的候选合并，选最短正确路径
核心思路：Few-shot 示例的适应性有限——对非常简单的问题可能引入不必要步骤，对非常困难的问题可能抑制必要的长推理。增强样本来自原始分布，能更好覆盖难题
设计动机：实验表明增强后准确率显著提升，同时长度缩减仍优于朴素 BoN 和 RM

损失函数 / 训练策略¶

使用标准 SFT（supervised fine-tuning）损失，对筛选后的简洁推理路径做语言建模
每个问题一条训练样本（最短正确路径）
训练成本极低，相比数据生成阶段可忽略不计
生成预算分配：朴素 BoN 每题 16 条路径；FS 每题 1 条 + 16 条增强；FS-BoN 每题 16 条 + 16 条增强（Budget-Matched 设置：各 8 条）

实验关键数据¶

主实验¶

5 个模型族（Llama-3.2-3B, Gemma-2-2B, Qwen2.5-3B, Qwen2.5-Math-1.5B, DeepSeekMath-7B），在 GSM8K 和 MATH 上的平均结果：

方法	GSM8K Acc (%)	GSM8K Len (tokens)	MATH Acc (%)	MATH Len (tokens)	相对准确率	相对长度
Baseline (zero-shot)	78.06	241.87	46.40	480.37	100%	100%
Be Concise	77.98	214.87	47.76	446.09	99.9%	88.5%
Fixed Budget	—	—	—	—	89.9%	67.8%
Naive BoN (N=16)	77.12	214.22	47.64	433.26	98.8%	87.2%
Rational Metareasoning	76.15	207.49	47.56	432.56	97.2%	84.9%
FS-GPT4o	78.07	175.54	47.36	421.21	99.9%	73.2%
FS-GPT4o-BoN	75.88	153.38	47.36	364.33	97.0%	64.3%
FS-GPT4o-BoN (Budget-Matched)	76.24	160.59	47.52	384.43	97.4%	67.2%

消融实验¶

配置	相对长度 (GSM8K)	相对准确率 (GSM8K)	说明
FS-GPT4o-BoN（完整）	64.25%	97.00%	最大缩减，准确率略降
FS-GPT4o（不加 BoN）	73.15%	99.94%	准确率几乎不变，缩减稍弱
Naive BoN（不加 FS）	87.17%	98.79%	缩减有限
FS-GPT4o-BoN 不加增强	更短	更低	增强提升准确率
Direct Answer（不用 CoT）	1.36%	24.88%	准确率崩塌
Human CoT（外部数据微调）	54.95%	83.82%	长度短但准确率大幅下降

关键发现¶

FS-BoN 贡献最大：FS-GPT4o-BoN 实现 64.3% 相对长度（缩减 35.7%），是 Naive BoN（缩减 12.8%）的近 3 倍效率
自训练 vs 外部数据：用外部数据（Human CoT / GPT-4o CoT）微调虽然大幅缩短长度，但准确率下降严重（-16%~-24%），位于 Pareto 前沿以下；自训练方法因为训练数据来自模型自身分布，更好保留推理能力
自适应长度分配：在 MATH 的 5 个难度级别上，简单题（Level 1-2）缩减 20%-40%，难题（Level 5）仅缩减约 5%，说明模型学会了根据题目难度自适应分配 token 预算
模型规模一致性：Llama 1B/3B/8B 的缩放实验表明，模型越大 token 缩减越多；FS-GPT4o-BoN 在所有规模上都是缩减最大的方法
跨领域泛化：在 MMLU-Pro 的商业/化学/物理推理任务上，方法同样有效——平均准确率提升 16.51%，长度缩减 26.82%
实际效率增益：wall-clock 延迟降低 15.4%-52.9%，内存使用减少 2.5%-6.3%

亮点与洞察¶

"简洁推理是潜在能力而非缺失能力"：模型已经具备简洁推理的能力，只是默认采样不会触及。这个观察类似于对齐领域的 Superficial Alignment Hypothesis——模型的能力早已存在，只需轻量微调即可释放。这启示我们不需要从零教会模型新能力，而是引导它使用已有能力
FS 与 BoN 的独立可加性：few-shot 条件化偏移了整个输出长度分布的均值，BoN 采样从尾部选优。二者在不同维度上操作，因此效果近似可加。这种"分布偏移 + 尾部采样"的组合思路可以迁移到其他需要控制生成属性的场景（如控制输出风格、毒性等）
自训练的优雅性：将推理时的多次采样开销转化为一次性训练开销。训练后的模型直接生成简洁推理，零额外推理成本。这种"训练时投入换推理时省开销"的思路对 thinking model（如 DeepSeek-R1、o1）的效率优化有直接指导意义
逐问题选择 vs 全局选择：BoN 采样时按问题选最短正确路径而非全局选最短，确保了难题也有训练信号。这个看似微小的设计决策体现了对数据质量的细致考量

局限性 / 可改进方向¶

任务范围有限：仅在数学推理（GSM8K/MATH）上做了主实验，虽然在 MMLU-Pro 上有初步验证，但自然语言推理、代码生成等领域尚未涉及。特别是对于需要多步隐式推理的任务（如常识推理），简洁化是否会损失关键信息仍不明确
BoN 数据生成阶段仍昂贵：虽然推理时无额外开销，但训练数据生成需要对每个问题采样 16-32 条路径，对于大规模训练集仍然是不小的计算投入
简洁 ≠ 可解释：作者未讨论简洁推理对可解释性的影响。更短的推理链可能省略了中间步骤的显式说明，使人类更难理解模型的推理过程
未考虑强化学习方法：仅使用标准 SFT，未探索 RL-based 训练（如用长度惩罚的 PPO/DPO），可能错过更大的优化空间
未应用于 thinking model：论文在 Discussion 中提到对 thinking model（o1/R1）的潜在价值，但未做实验验证。这类模型的内部推理动辄数千 token，简洁化的收益可能更大
改进方向：(1) 对错误推理路径做 early termination 以进一步减少无效 token；(2) 将方法扩展到多任务设置避免逐任务微调；(3) 结合 RL 训练引入长度奖励信号

评分¶

新颖性: ⭐⭐⭐⭐ "模型输出分布中已包含简洁推理"的发现有洞察力，FS-BoN 组合虽然每个组件都简单但组合效果显著
实验充分度: ⭐⭐⭐⭐⭐ 5 个模型族 × 2 个数据集 + 3 个跨领域数据集 + 缩放实验 + 详尽消融 + 实际延迟测量，非常扎实
写作质量: ⭐⭐⭐⭐ 逻辑清晰，从观察到方法到实验的推导自然，图表丰富
价值: ⭐⭐⭐⭐ 对 LLM 推理效率有直接实用意义，特别是对 thinking model 的效率优化有启示