The Virtues of Brevity: Avoid Overthinking in Parallel Test-Time Reasoning¶
会议: NeurIPS 2025 (workshop)
arXiv: 2510.21067
代码: 无
领域: 测试时扩展与推理
关键词: 最短答案, 过度思考, 长度启发式, 推理多样性, 测试时计算
一句话总结¶
证明选择最短答案是一个简单但有效的Best-of-N启发式方法,通过避免过度思考regime大幅降低计算成本,性能与自一致性可比或更优,在推理模型中表现特别突出。
研究背景与动机¶
- 过度思考现象: 推理模型常生成不必要的冗长推理,浪费计算资源
- 成本问题: 基于长度的启发式方法看似简陋,但实际有效
- 机制解释: 推理模型存在两个regime:简洁自信的conventional regime和冗长不确定的overthinking regime
- 实用价值: 简单启发式规则无需额外模型训练,易于应用
方法详解¶
整体框架¶
两个推理regime假设: 1. conventional regime: 短响应+高确定度 → 高正确率 2. overthinking regime: 长响应+低确定度 → 低正确率(但模型不自知)
关键观察:通过选择最短答案,自动偏向conventional regime。
关键设计¶
最短答案启发式: - 生成N个候选解 - 选择响应长度最短的候选 - 一旦第一个完成,停止其他生成(early stopping)
关键优势: 1. 无需额外计算(已生成token中获取长度) 2. Early stopping降低token消耗 3. 自然避免过度思考
对比启发式: - 最长答案:长度偏差导致性能最差 - Self-consistency:需要可比答案(限制到确定输出任务) - 自信度选择:可能被虚假高分骗
实验关键数据¶
AIME基准性能对比 (表1)¶
| 模型 | Single | Shortest | Self-Consistency | Longest |
|---|---|---|---|---|
| DeepSeek-R1 | 85.0% | 89.0% | 89.2% | 78.2% |
| Grok-3-mini | 81.0% | 85.2% | 86.2% | 74.9% |
| Qwen3-32B | 89.5% | 92.5% | 93.0% | 85.5% |
LiveCodeBench性能 (表1右侧)¶
| 模型 | Single | Shortest | Self-Consistency | Longest |
|---|---|---|---|---|
| DeepSeek-R1 | 76.5% | 79.2% | N/A | 76.5% |
| Grok-3-mini | 69.5% | 69.2% | N/A | 66.8% |
| Qwen3-32B | 78.6% | 79.5% | N/A | 78.6% |
令牌利用效率 (Pareto曲线, 图1)¶
| 方法 | 准确度 | 相对令牌用量 | 帕累托优化 |
|---|---|---|---|
| Single | 85.0% | 1.0x | 基线 |
| Shortest | 89.0% | ~0.7x | ✓最优 |
| Self-Consistency | 89.2% | 2.5x | 非优 |
| Longest | 78.2% | 2.8x | 劣 |
不确定度分析 (表2)¶
| 模型 | AIME | LiveCodeBench | 模式 |
|---|---|---|---|
| DeepSeek-R1 | 67.0% | 67.5% | 长答案更不确定 |
| Grok-3-mini | 67.4% | 63.7% | 长答案更不确定 |
| Qwen3-32B | 58.2% | 58.5% | 长答案更不确定 |
关键点分析 (两regime分界)¶
| 模型 | 模式位置 | 前/后趋势 | 嵌入发散 |
|---|---|---|---|
| DeepSeek-R1 | ~模态附近 | 不确定度↑ | 发散后平台 |
| Grok-3-mini | ~模态附近 | 相关性↑ | 发散后平台 |
| Qwen3-32B | ~模态附近 | 不确定度↑ | 发散后平台 |
亮点与洞察¶
- 简洁而有效: 打破复杂方法的假设,证明基于长度的启发式足够
- 效率优势: Pareto改进自一致性,令牌用量~0.7x而准确度相当
- 双机制: 避免过度思考的同时,early-stopping进一步降低成本
- 通用性: 对推理模型和非推理模型都有一定效果
局限性¶
- 推理模型偏好: 对非推理模型(如GPT-4)的效果未测试
- 开放任务限制: 主要在数学和代码上评估,其他任务(QA、总结)未知
- 贪心策略: 完全基于长度的启发式可能遗漏某些edge cases
- 理论缺乏: 为什么长度与确定度相关的理论解释仍不完全
相关工作¶
- Test-time scaling: Best-of-N、自一致性、USC
- 推理模型: DeepSeek-R1、o1、Grok-3
- 奖励选择: ORM、PRM
- 链式推理: CoT、思维树
评分¶
⭐⭐⭐⭐