Let LRMs Break Free from Overthinking via Self-Braking Tuning¶
会议: NeurIPS 2025
arXiv: 2505.14604
代码: https://github.com/ZJU-REAL/Self-Braking-Tuning
领域: LLM推理
关键词: 高效推理, 过度思考, 自制动, 链式思维, 推理效率
一句话总结¶
提出 Self-Braking Tuning (SBT) 框架,通过识别推理轨迹中的过度思考模式并构造自适应长度训练数据,使大型推理模型(LRM)学会自主判断何时停止推理,在数学推理任务上减少 30%-60% token 消耗的同时保持精度。
研究背景与动机¶
- 领域现状:大型推理模型(如 OpenAI o1、DeepSeek-R1)通过生成详细的多步推理链来提升准确率,在数学和逻辑任务上表现优异。
- 现有痛点:这些模型普遍存在"过度思考"(overthinking)问题——在已经得到正确答案后仍然继续生成大量冗余推理步骤,导致计算开销巨大(单个问题消耗数千 token)、延迟增加,且冗余推理可能干扰最终答案。
- 核心矛盾:现有解决过度思考的方法大多依赖外部干预机制——RL 奖励约束、token 预算限制、推理时截断等,没有充分利用模型自身识别冗余推理的能力。这种外部控制范式增加了系统复杂度,且缺乏灵活性。
- 本文要解决什么? 能否让 LRM 自主识别冗余推理并适时停止?即让模型内化一个"制动机制",像人类一样在达到足够确信时自然结束推理。
- 切入角度:作者观察到 LRM 的推理轨迹有明确的结构——先是 Foundation Solution(第一次完整解题),随后是多个 Evolution Solution(反思/验证/替代方案)。过度思考主要发生在 Evolution Solution 阶段。通过结合结构效率指标和语言标记指标来定量识别过度思考的转折点。
- 核心 idea 一句话:用量化指标定位冗余推理的起始点,构造自适应长度的训练数据并配合制动提示(braking prompt),让模型通过 SFT 学会自主终止过度推理。
方法详解¶
整体框架¶
输入是一批带有长推理轨迹的数学 QA 数据(基于 OpenR1-Math)。系统首先分析轨迹结构,用 overthink score 量化每个推理步骤的冗余程度,找到最佳截断点。然后通过两种策略(SBT-E / SBT-D)构造截断后的训练数据,在截断点插入自然语言制动提示,并对冗余部分做 loss masking。最终通过 SFT 训练模型。推理时模型能自发生成制动语句并终止思考。
关键设计¶
- 推理轨迹的结构化分析
- 做什么:将 LRM 的推理轨迹分解为 Foundation Solution(首次系统性解题)和多个 Evolution Solution(后续反思/验证/替代方案)
- 核心思路:通过分析 DeepSeek-R1 等模型的推理输出,发现 Evolution Solution 通常以 "Wait"、"Alternatively"、"However" 等词开头。在简单题目(如 GSM8K)上 Foundation Solution 的正确率已经很高(~85%),后续 Evolution Solution 主要是冗余的重复验证
-
设计动机:理解推理结构是精确截断的前提。如果不区分有效推理和冗余推理就截断,可能破坏核心解题能力
-
过度思考量化指标体系
- 做什么:用两个互补指标定量评估每条推理轨迹的冗余程度
- 核心思路:
- 推理效率比 \(\eta_s = FS / TS\)(首次得到正确答案的步骤数 / 总步骤数),越接近 1 说明推理越高效
- 过度思考标记比 \(\kappa_t\)(推理文本中反思/验证类关键词的密度),越高说明冗余越多
- 综合 Overthink Score = \(\beta \cdot \kappa_t + (1-\beta) \cdot (1-\eta_s)\),其中 \(\beta=0.1\)
-
设计动机:单用结构指标无法捕捉语言层面的冗余模式,单用语言指标对风格敏感。\(\beta=0.1\) 体现了以结构效率为主(90%)、语言信号为辅(10%)的设计哲学
-
SBT-E(Exact 截断策略)
- 做什么:对每条轨迹统一保留 Foundation Solution + 1 个 Evolution Solution,然后截断
- 核心思路:保留两个完整解答让模型学到"得到相同答案两次就该停止"的模式。截断点后保留少量被 mask 的冗余内容(下一个 Evolution Solution 的开头),让模型看到但不学习冗余模式
-
设计动机:保留一个 Evolution Solution 是为了保持模型的自我纠正能力,同时两次得到相同答案本身就是自然的终止信号
-
SBT-D(Dynamic 动态截断策略)
- 做什么:逐步分析推理轨迹,根据每步的 overthink score 动态决定截断点
- 核心思路:从 Foundation Solution 开始,逐步添加后续步骤,每加一步就重新计算 overthink score。当 score 超过阈值 \(\tau_1 = 0.2\) 时停止。score 在 \(\tau_1\) 和 \(\tau_2 = \tau_1 + 5\%\) 之间的步骤作为 masked segment
-
设计动机:相比 SBT-E 的固定截断,SBT-D 能根据题目难度自适应——难题保留更多推理步骤,简单题更早截断。这更符合人类推理的特点
-
制动提示机制(Braking Prompt)
- 做什么:在截断点插入自然语言的制动语句,如 "Wait, I've gotten the same answer multiple times, time to end the thinking."
- 核心思路:相比特殊 token(如
<stop_overthinking>)或无提示,自然语言制动提示利用了模型已有的语义理解能力,无需学习新的控制约定 - 设计动机:实验证明自然语言提示比特殊 token 减少 6.4% 的 token 消耗。自然语言提示提供了显式的元认知信号,让模型理解"为什么停"而不只是"在哪停"
损失函数 / 训练策略¶
- 使用标准 SFT 训练,基于 Megatron-LM,3 个 epoch,学习率 1e-5,余弦衰减
- 关键设计:masked redundant thinking (MRT) — 截断点后保留的冗余内容不参与 loss 计算。这让模型看到过度思考的模式但不强化它,相当于"负面样例曝光但不反向传播"
- 不加 MRT 时 token 消耗增加 37.8%,说明这个设计对模型学习"什么是冗余"至关重要
实验关键数据¶
主实验¶
| 模型 | 方法 | GSM8K Acc | MATH500 Acc | AIME Acc | AMC23 Acc | 平均 Acc | 平均 #Tok |
|---|---|---|---|---|---|---|---|
| Qwen2.5-Math-1.5B | Baseline | 85.00 | 80.25 | 16.25 | 55.94 | 59.36 | 3277 |
| SBT-E | 84.85 | 77.10 | 13.75 | 55.63 | 57.83 | 1673 (-49%) | |
| SBT-D | 84.87 | 77.30 | 14.17 | 50.31 | 56.66 | 1682 (-49%) | |
| Qwen2.5-Math-7B | Baseline | 96.11 | 92.67 | 40.83 | 83.13 | 78.19 | 6029 |
| SBT-E | 95.45 | 90.77 | 38.75 | 77.19 | 75.54 | 4178 (-31%) | |
| SBT-D | 95.37 | 91.15 | 38.38 | 80.06 | 76.24 | 4643 (-23%) | |
| Llama-3.1-8B | Baseline | 88.03 | 59.98 | 9.58 | 36.75 | 48.59 | 8576 |
| SBT-E | 85.03 | 57.60 | 6.84 | 33.44 | 45.73 | 3193 (-63%) | |
| SBT-D | 88.27 | 62.60 | 7.70 | 38.12 | 49.17 | 4291 (-50%) |
消融实验¶
| 配置 | 平均 Acc | 平均 #Tok | 说明 |
|---|---|---|---|
| Baseline | 59.36 | 3277 | 原始 SFT |
| SBT-E w/ MRT | 57.83 | 1673 | 完整模型 |
| SBT-E w/o MRT | 58.02 | 2306 | 去掉 masked redundant thinking,token +37.8% |
| 自然语言制动 | 56.66 | 1682 | 最优制动方式 |
| 特殊 token 制动 | 56.61 | 1797 | token +6.4% |
| 无制动提示 | 56.39 | 1801 | Acc -0.27%, token +7.1% |
| Step-level 检测 | 56.66 | 1682 | 优于 token-level |
| Token-level 检测 | 56.24 | 1753 | 打断逻辑单元 |
关键发现¶
- Masked Redundant Thinking 是核心设计:去掉 MRT 后 token 消耗增加 37.8%,说明"看到但不学习冗余模式"对模型自我制动能力至关重要
- SBT-D 在大模型上更优:Llama-3.1-8B 上 SBT-D 实际提升了 MATH500 精度 (+2.62%),说明动态截断还能消除有害的过度思考
- 通用模型比专业模型获益更大:Llama-8B 获得 63% token 减少,Qwen-Math-7B 仅 31%,因为专业模型本身推理更聚焦
- 阈值 0.2(约 60% 样本被识别为过度思考)是最优工作点
亮点与洞察¶
- "曝光但不强化"的训练范式很巧妙:通过 loss masking 让模型观察冗余模式但不对其梯度更新,类似对比学习中的负样本但更轻量。这个思路可以迁移到任何需要让模型学会"什么不该做"的场景(如幻觉抑制)
- 结构化分析推理轨迹:将 Foundation Solution / Evolution Solution 的划分自动化,为后续推理压缩工作提供了标准化工具
- 自然语言 > 特殊 token 作为控制信号:利用模型已有的语义理解比引入新符号更高效,这个发现对任何需要模型自我调节的任务都有参考价值
- "解答重复"作为自然终止信号:保留两个得到相同答案的解答让模型学到这种模式,是非常自然且可解释的终止条件
局限性 / 可改进方向¶
- 仅在数学推理任务上验证,未覆盖代码生成、逻辑推理、创意写作等任务的过度思考问题
- 依赖 OpenR1-Math 的特定格式(
<think>...</think>标签),对其他推理格式的泛化未验证 - Overthink Score 中的 \(\beta=0.1\) 和阈值 \(\tau_1=0.2\) 可能对不同领域/模型需要重新调参
- 仅使用 SFT,未探索 SBT + RL 的组合方案(可能进一步提升自制动能力)
- 训练数据构造依赖标准答案来判断"首次正确",对无标准答案的开放式任务不直接适用
相关工作与启发¶
- vs DEER(推理时截断): DEER 在推理时根据置信度截断,是外部控制;SBT 在训练时内化制动能力,推理时无需额外逻辑
- vs Token-Budget / CoD(预算控制): 这些方法需要预设 token 预算,难以适配不同难度的题目;SBT 让模型根据题目自适应决定推理长度
- vs LightThinker(中间步骤压缩): LightThinker 压缩中间推理内容,SBT 直接减少不必要的推理步骤,两者可以互补使用
评分¶
- 新颖性: ⭐⭐⭐⭐ 自制动的思路有创新,但核心仍是训练数据工程
- 实验充分度: ⭐⭐⭐⭐⭐ 消融实验覆盖了所有关键设计选择,4 种模型 × 4 个 benchmark
- 写作质量: ⭐⭐⭐⭐ 结构清晰,分析深入,图表丰富
- 价值: ⭐⭐⭐⭐ 实用性强,方法简单有效,对 LRM 部署有直接价值