The Virtues of Brevity: Avoid Overthinking in Parallel Test-Time Reasoning¶

会议: NeurIPS 2025 (workshop)
arXiv: 2510.21067
代码: 无
领域: 测试时扩展与推理
关键词: 最短答案, 过度思考, 长度启发式, 推理多样性, 测试时计算

一句话总结¶

证明选择最短答案是一个简单但有效的Best-of-N启发式方法，通过避免过度思考regime大幅降低计算成本，性能与自一致性可比或更优，在推理模型中表现特别突出。

两个推理regime假设: 1. conventional regime: 短响应+高确定度 → 高正确率 2. overthinking regime: 长响应+低确定度 → 低正确率（但模型不自知）

关键观察：通过选择最短答案，自动偏向conventional regime。

最短答案启发式: - 生成N个候选解 - 选择响应长度最短的候选 - 一旦第一个完成，停止其他生成（early stopping）

关键优势: 1. 无需额外计算（已生成token中获取长度） 2. Early stopping降低token消耗 3. 自然避免过度思考

对比启发式: - 最长答案：长度偏差导致性能最差 - Self-consistency：需要可比答案（限制到确定输出任务） - 自信度选择：可能被虚假高分骗

模型	Single	Shortest	Self-Consistency	Longest
DeepSeek-R1	85.0%	89.0%	89.2%	78.2%
Grok-3-mini	81.0%	85.2%	86.2%	74.9%
Qwen3-32B	89.5%	92.5%	93.0%	85.5%

模型	Single	Shortest	Self-Consistency	Longest
DeepSeek-R1	76.5%	79.2%	N/A	76.5%
Grok-3-mini	69.5%	69.2%	N/A	66.8%
Qwen3-32B	78.6%	79.5%	N/A	78.6%

方法	准确度	相对令牌用量	帕累托优化
Single	85.0%	1.0x	基线
Shortest	89.0%	~0.7x	✓最优
Self-Consistency	89.2%	2.5x	非优
Longest	78.2%	2.8x	劣

模型	AIME	LiveCodeBench	模式
DeepSeek-R1	67.0%	67.5%	长答案更不确定
Grok-3-mini	67.4%	63.7%	长答案更不确定
Qwen3-32B	58.2%	58.5%	长答案更不确定

模型	模式位置	前/后趋势	嵌入发散
DeepSeek-R1	~模态附近	不确定度↑	发散后平台
Grok-3-mini	~模态附近	相关性↑	发散后平台
Qwen3-32B	~模态附近	不确定度↑	发散后平台

⭐⭐⭐⭐