Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning¶
会议: NeurIPS 2025
arXiv: 2502.18080
代码: RUCBM/TOPS
领域: model_compression / LLM reasoning
关键词: test-time compute, Chain-of-Thought, reasoning scaling, overthinking, self-improvement, optimal reasoning effort
一句话总结¶
揭示了过度延长 CoT 长度会损害 LLM 推理性能,并提出 Thinking-Optimal Scaling (TOPS) 策略,让模型为每道题选择最短正确响应进行自我提升,在效果和效率上同时优于现有蒸馏方法。
研究背景与动机¶
- System-2 思维范式兴起:以 OpenAI o1 为代表的推理模型通过延长 CoT 来实现搜索、反思、回溯等深度推理,在复杂任务上取得显著提升。
- 后续工作追求更长 CoT:QwQ-32B-Preview、DeepSeek-R1 等模型通过蒸馏或 RL 进一步扩展推理 token 数量,试图获得更好的性能。
- "overthinking" 效率问题:已有并发工作指出 o1-like 模型对简单问题生成过多冗余 token,但仅关注效率,未探讨对正确率的影响。
- 作者核心关切:过度追求更长 CoT 是否会在某些领域反而 降低 推理准确率?这是一个比效率更深层的问题。
- 初步观察:对比 QwQ-32B-Preview 与 Qwen2.5-32B-Instruct,前者使用显著更多 token 但性能提升有限,暗示长 CoT 并非总有益。
- 研究目标:系统性地研究 CoT 长度缩放对推理性能的影响,并设计"思考最优"的缩放策略,让模型自适应决定每道题所需的推理深度。
方法详解¶
整体框架:TOPS (Thinking-OPtimal Scaling)¶
TOPS 包含三个阶段,核心思想是让模型为每道题找到"最短正确响应"作为训练目标:
阶段一:Format Imitation(格式模仿)¶
- 使用少量种子数据(约 1.3K 题,每题 3 种推理深度的响应,共约 3.9K 样本)训练 tag 模型
- 通过 3 种 system prompt 控制低/中/高推理努力(Low/Medium/High),引导 QwQ-32B-Preview 生成不同长度的正确 CoT
- 对同一题的 3 个响应按实际长度重排,要求相邻长度差 > 300 tokens,确保推理深度确实不同
- 用种子数据微调基座模型,使其学会根据不同 system prompt 采用不同推理深度
阶段二:Reasoning Effort-Conditioned Generation(条件生成)¶
- 用 tag 模型在额外 50K 数学问题上分别以低/中/高推理努力各生成 1 个响应
- 对每道题在 3 个响应中选出 最短的正确响应 作为 thinking-optimal 响应
- 与种子数据中低推理努力的响应合并,得到约 26K 样本的 thinking-optimal 数据集
阶段三:Self-Improvement(自我提升)¶
- 用 thinking-optimal 数据集对基座模型做 SFT(学习率 \(1 \times 10^{-5}\),batch size 96,2 epoch)
- 得到最终的 TOPS 模型,能自适应为简单题分配少量 token、为难题分配更多 token
关键设计¶
- 不同于固定长度蒸馏:STILL-2 / Sky-T1 直接用 o1-like 模型的原始长度分布做蒸馏,TOPS 则通过多推理深度生成 + 最短正确选择,获得更优的长度分布
- 不同于随机选择:对照实验 Qwen2.5-32B-Random 随机选正确响应,性能一致低于最短正确响应选择
训练策略:迭代自我提升¶
- Iter-SFT:在额外 4500 道 MATH 问题 + AIME1983-2023 上,从 TOPS 模型采样 8 个响应,选最短正确响应继续 SFT
- Iter-DPO:构建偏好对——chosen 为最短正确响应,rejected 为最长错误响应(提升推理能力) + 最短错误但比最短正确更短的响应(避免过度简化),做 DPO 优化
实验关键数据¶
主实验表(Qwen2.5-32B 系列)¶
| 模型 | GSM8K Acc | GSM8K #Tokens | MATH500 Acc | MATH500 #Tokens | AIME2024 Acc | AIME2024 #Tokens |
|---|---|---|---|---|---|---|
| Qwen2.5-32B-Instruct (T=0) | 95.91 | 295 | 84.20 | 577 | 16.67 | 1407 |
| QwQ-32B-Preview | 95.23 | 761 | 92.02 | 2416 | 45.33 | 7637 |
| STILL-2-32B | 95.47 | 571 | 91.40 | 2005 | 45.33 | 6656 |
| Sky-T1-32B-Preview | 94.82 | 696 | 89.48 | 2022 | 35.33 | 5351 |
| Qwen2.5-32B-TOPS | 95.82 | 412 | 91.48 | 1883 | 43.33 | 7260 |
| TOPS-Iter-DPO | 95.80 | 385 | 91.60 | 1732 | 46.00 | 6427 |
消融与分析¶
| 分析维度 | 关键发现 |
|---|---|
| 推理努力 vs 难度 | 简单任务(GSM8K)Low effort 最优,困难任务(AIME2024)High effort 更优 |
| 长 CoT 的负面机制 | 更长 CoT 中错误推理步骤的数量和占比均显著增加 |
| Loss masking 验证 | 对错误步骤不计算 loss → 性能优于全步骤计算 loss,验证错误步骤有害 |
| 答案一致性 | 最优推理努力下,多次采样的不同答案数最少,说明模型最稳定 |
| TOPS vs Random 选择 | 每个 benchmark 上 TOPS(最短正确)均优于 Random(随机正确) |
| 迭代 DPO | 同时提升效果和效率,AIME2024 达到 46.00%(超越 QwQ-32B-Preview) |
关键发现¶
- 仅 1.3K 种子样本 + 自我提升即可达到甚至超越使用 3.9K 高质量蒸馏样本的 STILL-2
- TOPS 在 GSM8K 上仅用 412 tokens(QwQ 用 761),有效缓解 overthinking
- 在 LLaMA3.1-8B-Instruct 上同样有效,说明方法具有跨架构泛化能力
亮点与洞察¶
- 核心洞察:更长 ≠ 更好。首次系统性证明过长 CoT 会引入更多错误推理步骤,反而降低准确率,颠覆了"越长越好"的朴素直觉
- 最短正确响应的优雅设计:无需额外奖励模型或复杂搜索,仅通过多深度采样 + 最短正确选择即可自动获得 thinking-optimal 分布
- 自我提升闭环:种子数据极少(1.3K),模型自己生成大规模训练数据并筛选,实现了从 System-1 到高效 System-2 的低成本升级
- 答案一致性指标:发现最优推理深度下多次采样答案分布最集中,提供了一种无需 ground truth 评估推理深度适当性的间接信号
- 迭代 DPO 中的双向偏好对设计:同时避免 overthinking 和 underthinking,比一般 DPO 考虑更周全
局限性 / 可改进方向¶
- 领域局限:分析和实验主要在数学推理上,因为数学有精确的正确性验证;在代码、科学推理、开放式问题等领域是否有同样的 overthinking 现象尚待探索
- 仅 SFT 设定:未在 RL 训练(如 GRPO、PPO)场景中验证 TOPS 策略,RL 中过度奖励长正确响应可能也有类似问题
- 推理努力离散化:仅 3 级推理深度(Low/Medium/High),更细粒度的连续控制可能带来更优结果
- 单次采样:每种推理努力仅采样 1 个响应,多次采样后取最短正确可能进一步提升
- 依赖教师模型生成种子数据:种子数据仍由 QwQ-32B-Preview 生成,探索无教师的纯 RL 自我进化是重要方向
- 未结合 PRM/ORM:如果在选择最短正确响应时结合过程奖励模型,可能获得更精细的质量-长度权衡
相关工作与启发¶
- 与 STILL-2 / Sky-T1 的关系:这两种方法直接蒸馏 o1-like 响应,继承了教师模型的长度分布;TOPS 通过自适应选择打破了这一限制
- 与 overthinking 研究的互补:Chen et al. (2024) 关注效率问题,TOPS 进一步揭示了效果问题,并提供了解决方案
- 与 RL-based scaling 的联系:作者指出 RL 中给所有正确答案相同奖励(如 1.0)也存在类似问题,更短正确响应应获得更高偏好
- 对 DeepSeek-R1 等后续工作的启示:在 RL 训练中引入长度惩罚或基于推理步骤质量的差异化奖励,可能是更优方向
- Process Reward Model 的互补:TOPS 选择最短正确响应是一种粗粒度的过程质量代理,与 PRM 的细粒度步骤评估可以互补
评分¶
- ⭐ 新颖性: 4/5 — 首次系统分析 CoT 长度过度缩放的负面效应,TOPS 方法虽简单但洞察深刻
- ⭐ 实验充分度: 4/5 — 多个基座模型、多难度benchmark、详尽消融、机制分析全面,但领域覆盖略窄
- ⭐ 写作质量: 4/5 — 逻辑清晰,从现象观察到原因分析再到方法设计,叙事流畅
- ⭐ 价值: 4.5/5 — 对 test-time scaling 社区提供了重要的反思视角和实用的训练策略