Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning¶

会议: NeurIPS 2025
arXiv: 2502.18080
代码: RUCBM/TOPS
领域: model_compression / LLM reasoning
关键词: test-time compute, Chain-of-Thought, reasoning scaling, overthinking, self-improvement, optimal reasoning effort

一句话总结¶

揭示了过度延长 CoT 长度会损害 LLM 推理性能，并提出 Thinking-Optimal Scaling (TOPS) 策略，让模型为每道题选择最短正确响应进行自我提升，在效果和效率上同时优于现有蒸馏方法。

研究背景与动机¶

System-2 思维范式兴起：以 OpenAI o1 为代表的推理模型通过延长 CoT 来实现搜索、反思、回溯等深度推理，在复杂任务上取得显著提升。
后续工作追求更长 CoT：QwQ-32B-Preview、DeepSeek-R1 等模型通过蒸馏或 RL 进一步扩展推理 token 数量，试图获得更好的性能。
"overthinking" 效率问题：已有并发工作指出 o1-like 模型对简单问题生成过多冗余 token，但仅关注效率，未探讨对正确率的影响。
作者核心关切：过度追求更长 CoT 是否会在某些领域反而降低推理准确率？这是一个比效率更深层的问题。
初步观察：对比 QwQ-32B-Preview 与 Qwen2.5-32B-Instruct，前者使用显著更多 token 但性能提升有限，暗示长 CoT 并非总有益。
研究目标：系统性地研究 CoT 长度缩放对推理性能的影响，并设计"思考最优"的缩放策略，让模型自适应决定每道题所需的推理深度。

方法详解¶

整体框架：TOPS (Thinking-OPtimal Scaling)¶

TOPS 包含三个阶段，核心思想是让模型为每道题找到"最短正确响应"作为训练目标：

阶段一：Format Imitation（格式模仿）¶

使用少量种子数据（约 1.3K 题，每题 3 种推理深度的响应，共约 3.9K 样本）训练 tag 模型
通过 3 种 system prompt 控制低/中/高推理努力（Low/Medium/High），引导 QwQ-32B-Preview 生成不同长度的正确 CoT
对同一题的 3 个响应按实际长度重排，要求相邻长度差 > 300 tokens，确保推理深度确实不同
用种子数据微调基座模型，使其学会根据不同 system prompt 采用不同推理深度

阶段二：Reasoning Effort-Conditioned Generation（条件生成）¶

用 tag 模型在额外 50K 数学问题上分别以低/中/高推理努力各生成 1 个响应
对每道题在 3 个响应中选出 最短的正确响应 作为 thinking-optimal 响应
与种子数据中低推理努力的响应合并，得到约 26K 样本的 thinking-optimal 数据集

阶段三：Self-Improvement（自我提升）¶

用 thinking-optimal 数据集对基座模型做 SFT（学习率 \(1 \times 10^{-5}\)，batch size 96，2 epoch）
得到最终的 TOPS 模型，能自适应为简单题分配少量 token、为难题分配更多 token

关键设计¶

不同于固定长度蒸馏：STILL-2 / Sky-T1 直接用 o1-like 模型的原始长度分布做蒸馏，TOPS 则通过多推理深度生成 + 最短正确选择，获得更优的长度分布
不同于随机选择：对照实验 Qwen2.5-32B-Random 随机选正确响应，性能一致低于最短正确响应选择

训练策略：迭代自我提升¶

Iter-SFT：在额外 4500 道 MATH 问题 + AIME1983-2023 上，从 TOPS 模型采样 8 个响应，选最短正确响应继续 SFT
Iter-DPO：构建偏好对——chosen 为最短正确响应，rejected 为最长错误响应（提升推理能力） + 最短错误但比最短正确更短的响应（避免过度简化），做 DPO 优化

实验关键数据¶

主实验表（Qwen2.5-32B 系列）¶

模型	GSM8K Acc	GSM8K #Tokens	MATH500 Acc	MATH500 #Tokens	AIME2024 Acc	AIME2024 #Tokens
Qwen2.5-32B-Instruct (T=0)	95.91	295	84.20	577	16.67	1407
QwQ-32B-Preview	95.23	761	92.02	2416	45.33	7637
STILL-2-32B	95.47	571	91.40	2005	45.33	6656
Sky-T1-32B-Preview	94.82	696	89.48	2022	35.33	5351
Qwen2.5-32B-TOPS	95.82	412	91.48	1883	43.33	7260
TOPS-Iter-DPO	95.80	385	91.60	1732	46.00	6427

消融与分析¶

分析维度	关键发现
推理努力 vs 难度	简单任务（GSM8K）Low effort 最优，困难任务（AIME2024）High effort 更优
长 CoT 的负面机制	更长 CoT 中错误推理步骤的数量和占比均显著增加
Loss masking 验证	对错误步骤不计算 loss → 性能优于全步骤计算 loss，验证错误步骤有害
答案一致性	最优推理努力下，多次采样的不同答案数最少，说明模型最稳定
TOPS vs Random 选择	每个 benchmark 上 TOPS（最短正确）均优于 Random（随机正确）
迭代 DPO	同时提升效果和效率，AIME2024 达到 46.00%（超越 QwQ-32B-Preview）

关键发现¶

仅 1.3K 种子样本 + 自我提升即可达到甚至超越使用 3.9K 高质量蒸馏样本的 STILL-2
TOPS 在 GSM8K 上仅用 412 tokens（QwQ 用 761），有效缓解 overthinking
在 LLaMA3.1-8B-Instruct 上同样有效，说明方法具有跨架构泛化能力

亮点与洞察¶

核心洞察：更长 ≠ 更好。首次系统性证明过长 CoT 会引入更多错误推理步骤，反而降低准确率，颠覆了"越长越好"的朴素直觉
最短正确响应的优雅设计：无需额外奖励模型或复杂搜索，仅通过多深度采样 + 最短正确选择即可自动获得 thinking-optimal 分布
自我提升闭环：种子数据极少（1.3K），模型自己生成大规模训练数据并筛选，实现了从 System-1 到高效 System-2 的低成本升级
答案一致性指标：发现最优推理深度下多次采样答案分布最集中，提供了一种无需 ground truth 评估推理深度适当性的间接信号
迭代 DPO 中的双向偏好对设计：同时避免 overthinking 和 underthinking，比一般 DPO 考虑更周全

局限性 / 可改进方向¶

领域局限：分析和实验主要在数学推理上，因为数学有精确的正确性验证；在代码、科学推理、开放式问题等领域是否有同样的 overthinking 现象尚待探索
仅 SFT 设定：未在 RL 训练（如 GRPO、PPO）场景中验证 TOPS 策略，RL 中过度奖励长正确响应可能也有类似问题
推理努力离散化：仅 3 级推理深度（Low/Medium/High），更细粒度的连续控制可能带来更优结果
单次采样：每种推理努力仅采样 1 个响应，多次采样后取最短正确可能进一步提升
依赖教师模型生成种子数据：种子数据仍由 QwQ-32B-Preview 生成，探索无教师的纯 RL 自我进化是重要方向
未结合 PRM/ORM：如果在选择最短正确响应时结合过程奖励模型，可能获得更精细的质量-长度权衡

评分¶

⭐ 新颖性: 4/5 — 首次系统分析 CoT 长度过度缩放的负面效应，TOPS 方法虽简单但洞察深刻
⭐ 实验充分度: 4/5 — 多个基座模型、多难度benchmark、详尽消融、机制分析全面，但领域覆盖略窄
⭐ 写作质量: 4/5 — 逻辑清晰，从现象观察到原因分析再到方法设计，叙事流畅
⭐ 价值: 4.5/5 — 对 test-time scaling 社区提供了重要的反思视角和实用的训练策略