Efficient Reasoning with Balanced Thinking¶
会议: ICLR 2026 arXiv: 2603.12372 代码: GitHub(有) 领域: 模型压缩/高效推理 关键词: 大语言模型推理, 过度思考, 欠思考, 隐状态导向, 无训练加速
一句话总结¶
提出 ReBalance,一个无需训练的框架,通过基于置信度的动态隐状态导向(steering vector),同时缓解大推理模型(LRM)的过度思考和欠思考问题,实现推理效率与准确率的双重提升。
研究背景与动机¶
- 领域现状:大推理模型(如 DeepSeek-R1、QwQ 等)通过 SFT 和 RL 训练获得了强大的推理能力,但在实际部署中面临计算效率问题
- 现有痛点:LRM 存在两个对立问题——过度思考(overthinking):对简单问题花费冗余推理步骤;欠思考(underthinking):对复杂问题未能充分探索推理路径就过早收敛
- 核心矛盾:现有缓解过度思考的方法(如抑制反思关键词、调整推理长度)往往会诱发欠思考,两者之间存在此消彼长的 trade-off。如图2(a)所示,已有方法在减少正确样本推理长度的同时,也显著减少了错误样本的推理长度,说明引入了欠思考
- 本文要解决什么:如何在缓解过度思考的同时避免引入欠思考,实现平衡推理
- 切入角度:观察到模型的逐步置信度(stepwise confidence)和置信度方差可以作为推理状态的连续指标——高方差反映犹豫/路径切换(过度思考),持续高置信反映过早承诺(欠思考)
- 核心 idea 一句话:利用置信度信号识别推理状态,构建从过度思考到欠思考的隐状态导向向量,再用动态控制函数根据实时置信度调节导向强度和方向
方法详解¶
整体框架¶
ReBalance 分为离线和在线两个阶段: 1. 离线阶段:在小规模数据集上进行一次前向推理,识别过度思考/欠思考步骤,提取隐状态原型,计算导向向量,拟合动态控制函数 2. 在线阶段:在推理过程中,根据实时置信度通过动态控制函数计算导向权重,注入导向向量到隐状态中
关键设计¶
1. 过度思考与欠思考的显式建模¶
- 做什么:基于置信度指标将推理步骤分类为过度思考集合 \(\mathcal{O}\) 和欠思考集合 \(\mathcal{U}\)
- 核心思路:定义步级置信度 \(c_s = \exp\left(\frac{1}{|\mathcal{T}_s|}\sum_{t \in \mathcal{T}_s} \ln p_t^{\max}\right)\),以及滑动窗口内的置信度方差 \(\operatorname{Var}(c_s; \mathcal{W}_s)\)。通过经验分位数设定阈值 \(\tau_c^L, \tau_c^H, \tau_v^L, \tau_v^H\),将步骤分为:
- 过度思考 \(\mathcal{O} = \{s: c_s \leq \tau_c^L \wedge v_s \geq \tau_v^H\}\)(低置信、高方差)
- 欠思考 \(\mathcal{U} = \{s: c_s \geq \tau_c^H \wedge v_s \leq \tau_v^L\}\)(高置信、低方差)
- 设计动机:Fig.2(b) 的实验观察证实了这一对应关系
2. 基于置信度的导向向量提取¶
- 做什么:从深层隐状态中提取过度思考和欠思考的原型表示,构建导向向量
- 核心思路:对 \(\mathcal{O}\) 和 \(\mathcal{U}\) 中步骤的首 token 隐状态取平均得到原型 \(\bm{\mu}^O\) 和 \(\bm{\mu}^U\),导向向量为 \(\mathbf{v} = \frac{\bm{\mu}^O - \bm{\mu}^U}{\|\bm{\mu}^O - \bm{\mu}^U\|_2}\)
- 隐状态调整:\(\tilde{\mathbf{h}}_{t_s^{(1)}} = \mathbf{h}_{t_s^{(1)}} + \alpha_s \mathbf{v}\),其中 \(\alpha_s = \lambda_s \delta_s\),\(\delta_s = +1\) 缓解欠思考,\(\delta_s = -1\) 缓解过度思考
- 设计动机:深层隐状态对推理模式有更强的判别力(见附录),且首 token 在因果注意力下条件化后续生成
3. 基于模型行为的动态控制函数¶
- 做什么:设计一个根据实时置信度自适应调节导向强度和方向的函数
- 核心思路:\(g(c_s, v_s) = \text{sign}(c_s - \tau_c^H) \cdot B(c_s, v_s) \cdot \tanh(|c_s - \tau_c^H|)\)
- 方向 \(\delta_s\):\(c_s < \tau_c^H\) 时取负(缓解过思考),\(c_s > \tau_c^H\) 时取正(缓解欠思考)
- 强度 \(\lambda_s\):由 \(\tanh\) 提供平滑饱和增长,\(B(c_s, v_s)\) 是方差感知的振幅函数,根据当前推理模式在 \(B_m\)、\(B_o\)、\(B_u\) 之间自适应切换
- 设计动机:避免硬切换,保持数值稳定;\(B_m\)、\(B_o\) 等参数从模型行为自适应得到,无需手动调参
损失函数¶
ReBalance 是无训练方法,不涉及损失函数设计。仅需一次离线前向推理即可获取所有组件。
实验关键数据¶
主实验¶
| 模型/数据集 | MATH-500 Acc↑ | MATH-500 Tokens↓ | AIME24 Acc↑ | GSM8K Acc↑ |
|---|---|---|---|---|
| R1-Distill-1.5B Baseline | 79.6 | 4516 | 23.3 | 76.0 |
| R1-Distill-1.5B ReBalance | 83.0 | 3474(-23%) | 33.3 | 78.3 |
| R1-Distill-7B Baseline | 89.8 | 3699 | 46.7 | 89.2 |
| R1-Distill-7B ReBalance | 92.6 | 2903(-22%) | 53.3 | 91.6 |
| Qwen3-14B Baseline | 93.8 | 4470 | 66.7 | 95.1 |
| Qwen3-14B ReBalance | 94.0 | 3641(-19%) | 73.3 | 96.3 |
| QwQ-32B Baseline | 94.8 | 4535 | 66.7 | 96.3 |
| QwQ-32B ReBalance | 95.4 | 3551(-22%) | 73.3 | 96.7 |
消融实验¶
- 仅使用导向向量不加动态控制:性能提升有限,甚至在某些数据集上下降
- 去除方差感知振幅 \(B(c_s, v_s)\):无法区分正常推理和异常推理状态
- 浅层 vs 深层隐状态:深层(如倒数第 2-3 层)效果最好,浅层判别力不足
关键发现¶
- ReBalance 在 4 个模型(0.5B-32B)、9 个 benchmark 上全面优于所有基线方法
- 同时减少推理长度(15-30%)并提升准确率(通常 +2-10%),这在之前的方法中极为罕见
- 导向向量从小规模 seen 数据集提取后,在 unseen 数据集上依然保持强泛化
- 与 SEAL、DEER 等 token 级抑制方法不同,ReBalance 不会牺牲有价值的中间推理步骤
亮点与洞察¶
- 核心洞察:置信度方差高 = 过度思考(犹豫不决);持续高置信 = 欠思考(过早承诺),这个观察既符合直觉又有实验验证
- 方法论价值:将过度思考/欠思考问题统一到一个框架中解决,而非分别处理
- 实用性极强:无训练、plug-and-play、仅需小规模数据集离线计算一次,部署成本极低
- 反直觉发现:推理长度更短的输出反而准确率更高,说明冗余推理确实引入了幻觉
局限性/可改进方向¶
- 导向向量从固定数据集提取,可能不适配所有任务分布,探索在线更新机制
- 置信度计算依赖 token 概率,对采样策略(如 top-k、nucleus sampling)的鲁棒性未充分验证
- 分位数阈值的设定 \(q_L, q_H\) 虽然自适应,但不同模型和任务可能需要不同的最优值
- 目前仅在数学和代码推理上验证,自然语言推理/多步规划等任务的效果待验证
相关工作与启发¶
- 过度思考缓解:SEAL(Chen et al., 2025b)通过抑制反思关键词减少推理长度但可能引起欠思考;NoThinking(Ma et al., 2025b)完全跳过思考阶段更为激进
- 推理效率:与基于 RL 的推理长度控制方法不同,ReBalance 完全免训练
- 隐状态操纵:类似 representation engineering 的思路,但面向推理模式而非行为控制
- 启发:将置信度作为推理质量的探针,可以推广到从 LRM 中提取更多细粒度的推理动态信息
评分¶
⭐⭐⭐⭐(4/5)
- 创新性:⭐⭐⭐⭐ 将过度/欠思考统一建模并通过隐状态导向同时解决,思路新颖
- 实验:⭐⭐⭐⭐⭐ 4 个模型 × 9 个 benchmark,实验极为全面
- 写作:⭐⭐⭐⭐ 动机清晰、公式推导完整
- 实用性:⭐⭐⭐⭐⭐ 无训练 plug-and-play,部署友好