跳转至

The Virtues of Brevity: Avoid Overthinking in Parallel Test-Time Reasoning

会议: NeurIPS 2025 (workshop)
arXiv: 2510.21067
代码: 无
领域: 测试时扩展与推理
关键词: 最短答案, 过度思考, 长度启发式, 推理多样性, 测试时计算

一句话总结

证明选择最短答案是一个简单但有效的Best-of-N启发式方法,通过避免过度思考regime大幅降低计算成本,性能与自一致性可比或更优,在推理模型中表现特别突出。

研究背景与动机

  1. 过度思考现象: 推理模型常生成不必要的冗长推理,浪费计算资源
  2. 成本问题: 基于长度的启发式方法看似简陋,但实际有效
  3. 机制解释: 推理模型存在两个regime:简洁自信的conventional regime和冗长不确定的overthinking regime
  4. 实用价值: 简单启发式规则无需额外模型训练,易于应用

方法详解

整体框架

两个推理regime假设: 1. conventional regime: 短响应+高确定度 → 高正确率 2. overthinking regime: 长响应+低确定度 → 低正确率(但模型不自知)

关键观察:通过选择最短答案,自动偏向conventional regime。

关键设计

最短答案启发式: - 生成N个候选解 - 选择响应长度最短的候选 - 一旦第一个完成,停止其他生成(early stopping)

关键优势: 1. 无需额外计算(已生成token中获取长度) 2. Early stopping降低token消耗 3. 自然避免过度思考

对比启发式: - 最长答案:长度偏差导致性能最差 - Self-consistency:需要可比答案(限制到确定输出任务) - 自信度选择:可能被虚假高分骗

实验关键数据

AIME基准性能对比 (表1)

模型 Single Shortest Self-Consistency Longest
DeepSeek-R1 85.0% 89.0% 89.2% 78.2%
Grok-3-mini 81.0% 85.2% 86.2% 74.9%
Qwen3-32B 89.5% 92.5% 93.0% 85.5%

LiveCodeBench性能 (表1右侧)

模型 Single Shortest Self-Consistency Longest
DeepSeek-R1 76.5% 79.2% N/A 76.5%
Grok-3-mini 69.5% 69.2% N/A 66.8%
Qwen3-32B 78.6% 79.5% N/A 78.6%

令牌利用效率 (Pareto曲线, 图1)

方法 准确度 相对令牌用量 帕累托优化
Single 85.0% 1.0x 基线
Shortest 89.0% ~0.7x ✓最优
Self-Consistency 89.2% 2.5x 非优
Longest 78.2% 2.8x

不确定度分析 (表2)

模型 AIME LiveCodeBench 模式
DeepSeek-R1 67.0% 67.5% 长答案更不确定
Grok-3-mini 67.4% 63.7% 长答案更不确定
Qwen3-32B 58.2% 58.5% 长答案更不确定

关键点分析 (两regime分界)

模型 模式位置 前/后趋势 嵌入发散
DeepSeek-R1 ~模态附近 不确定度↑ 发散后平台
Grok-3-mini ~模态附近 相关性↑ 发散后平台
Qwen3-32B ~模态附近 不确定度↑ 发散后平台

亮点与洞察

  1. 简洁而有效: 打破复杂方法的假设,证明基于长度的启发式足够
  2. 效率优势: Pareto改进自一致性,令牌用量~0.7x而准确度相当
  3. 双机制: 避免过度思考的同时,early-stopping进一步降低成本
  4. 通用性: 对推理模型和非推理模型都有一定效果

局限性

  1. 推理模型偏好: 对非推理模型(如GPT-4)的效果未测试
  2. 开放任务限制: 主要在数学和代码上评估,其他任务(QA、总结)未知
  3. 贪心策略: 完全基于长度的启发式可能遗漏某些edge cases
  4. 理论缺乏: 为什么长度与确定度相关的理论解释仍不完全

相关工作

  • Test-time scaling: Best-of-N、自一致性、USC
  • 推理模型: DeepSeek-R1、o1、Grok-3
  • 奖励选择: ORM、PRM
  • 链式推理: CoT、思维树

评分

⭐⭐⭐⭐