CyclicReflex: Improving Reasoning Models via Cyclical Reflection Token Scheduling¶

会议: ICLR 2026
arXiv: 2506.11077
代码: https://github.com/OPTML-Group/CyclicReflex
领域: LLM Reasoning
关键词: 大语言推理模型, 反思token调度, 测试时缩放, 周期性学习率, 解码策略

一句话总结¶

将推理过程中的反思token（如"wait"、"but"）视为可调度的"资源"，借鉴优化中周期性学习率的思想，提出CyclicReflex——一种免训练的解码策略，通过三角波形动态调控反思token的logit，在多个数学推理基准上（MATH500, AIME2024/2025, AMC2023）一致性提升1.5B-8B模型准确率。

研究背景与动机¶

大型推理模型（LRM）如OpenAI o1、DeepSeek-R1通过多步推理来解决复杂问题，推理过程由"反思token"（如"wait"、"but"、"alternatively"）引导。这些token在推理轨迹中起到关键的转折和自我评估作用。

然而，现有LRM存在两个对称性的问题： - 思考不足（under-reflection）：反思token过少，模型过早终止推理，无法充分探索解题路径，类似于学习率过小导致优化过早收敛 - 过度思考（over-reflection）：反思token过多，模型反复循环（如不停输出"wait"），浪费计算资源且无法收敛到正确答案，类似于学习率过大导致优化发散

现有方法如TIP（Thought switching penalty）只能单向抑制反思token、且使用固定的logit惩罚，无法同时应对不同难度问题的under/over-reflection问题。作者提出核心问题：如何通过资源分配策略动态调节反思token的使用频率和位置？ 其核心洞察是：将反思token调度类比为优化中的学习率调度，特别是借鉴周期性学习率（cyclical learning rate）的"步长对冲"思想。

方法详解¶

整体框架¶

CyclicReflex是一种training-free的解码策略，在自回归生成过程中，根据当前token位置动态调整反思token的logit值。输入为问题\(\mathbf{x}\)，输出为推理轨迹\(\mathbf{r}\)和最终答案\(\mathbf{y}\)。不需要修改模型参数，仅在推理阶段工作。

关键设计¶

反思token资源分配问题的形式化：将推理过程中的反思token（"wait"、"but"、"alternatively"等）视为可调度的"资源"，其频率和位置直接影响推理质量。通过TIP的扩展实验（允许正负\(\alpha\)），发现：TIP(-3)在Hard问题上提升最大但在Easy问题上严重下降；TIP(+1)在Easy上略有提升。这说明单一固定策略无法适应不同难度。
思维景观验证类比：利用Landscape of Thoughts可视化工具，将推理步骤投影到2D空间。验证了三种模式：
- under-reflection：推理轨迹过于保守，无法远离起始点
- desired-reflection：轨迹结构良好，收敛到正确答案
- over-reflection：模型曾到达接近正确答案的区域（如"Alternatively, perhaps the correct answer is..."），但反思过度导致快速越过该区域，最终偏离正确答案
CyclicReflex核心公式：采用位置相关的双向三角波形调制反思token的logit：

\[\hat{z}_{t,v} = \begin{cases} z_{t,v} + \delta(t) & \text{if } v \in \hat{V} \\ z_{t,v} & \text{otherwise} \end{cases}\]

\[\delta(t) = A \left| \frac{4 \cdot (t - C/4) \bmod C}{C} - 2 \right| - A\]

其中\(A\)是振幅（控制调整强度），\(C\)是周期（控制振荡频率），\(\hat{V}\)是反思token集合。\(\delta(C/4) = A\)为正值促进反思，\(\delta(3C/4) = -A\)为负值抑制反思。

与TIP的关键区别：
- TIP是单向静态的（固定\(\alpha \leq 0\)），仅抑制反思token
- CyclicReflex是双向动态的，交替促进和抑制反思
- 上升阶段鼓励探索（转换思路），下降阶段促进收敛（稳定推理）
- 类似于周期性学习率的stepsize hedging策略

训练策略¶

本方法完全不需要训练，是纯粹的inference-time策略。超参数通过网格搜索确定：\(A \in [1, 10]\)，\(C \in [200, 2000]\)（因数据集而异）。

实验关键数据¶

主实验¶

数据集	模型	指标	Original	TIP	S1	Silver	CyclicReflex
MATH500	Qwen-7B	Acc	0.86	0.87	0.83	0.88	0.89
AIME2024	Qwen-7B	Acc	0.43	0.43	0.33	0.37	0.50
AIME2025	Qwen-7B	Acc	0.31	0.30	0.33	0.30	0.37
AMC2023	Qwen-7B	Acc	0.81	0.85	0.85	0.85	0.90
AIME2024	Llama-8B	Acc	0.42	0.47	0.43	0.47	0.53
AMC2023	Llama-8B	Acc	0.81	0.85	0.75	0.85	0.90
MATH500	Qwen-1.5B	Acc	0.74	0.75	0.73	0.75	0.77
AIME2024	Qwen-1.5B	Acc	0.23	0.23	0.17	0.27	0.30

消融实验¶

配置	关键指标	说明
不同难度级别	Easy/Medium/Hard均提升	TIP仅在Hard上有效，Easy反而下降
+Best-of-N(N=8)	持续提升BoN准确率	与外部test-time方法兼容互补
+Beam Search	持续提升BS准确率	低预算时增益更明显
初始相位\(\phi=0\)最优	-	初期鼓励反思、后期抑制效果最佳
周期\(C\)影响更大	准确率对\(C\)更敏感	\(C=600\)在Qwen-7B/MATH500最优
振幅\(A\)控制长度	主要影响反思token数量和生成长度	\(A\)越大推理越长

关键发现¶

CyclicReflex在所有模型规模（1.5B-8B）和所有数据集上均一致性提升，同时生成长度与原始解码策略相当
自我纠错能力显著增强：在给定错误推理轨迹（100%长度）的条件下，CyclicReflex的纠错率远高于TIP和原始解码
生成的思维景观更集中，干扰区域更少，推理轨迹更容易直接收敛到正确答案
S1（强制插入"Wait"）在AMC2023上严重下降，说明简单地增加反思token是不够的

亮点与洞察¶

类比眼光非常精到：将反思token调度类比为学习率调度，under-reflection ↔ 学习率过小 ↔ 过早收敛，over-reflection ↔ 学习率过大 ↔ 振荡发散。这个类比不仅直觉上合理，而且通过思维景观可视化得到了很好的验证
极简但有效的设计：整个方法就是一个三角波形函数，没有任何可学习参数，极易实现且零额外开销
双向性是关键创新：相比TIP的单向抑制，CyclicReflex交替促进和抑制反思的能力使其能够适应不同难度的问题
与外部test-time scaling方法完美兼容：与Best-of-N和Beam Search的组合均能进一步提升

局限与展望¶

理论基础仍偏弱：为什么LRM会出现over/under-reflection的根本原因未被阐明
超参数（\(A\)和\(C\)）需要针对每个数据集做网格搜索，缺乏自适应机制
仅在数学推理任务上验证，未测试代码生成、逻辑推理等其他推理场景
反思token的定义（"wait"、"but"等）较为启发式，不同模型的反思模式可能不同
初始相位\(\phi\)的最优值（\(\phi=0\)）暗示了更深层的推理动态规律，值得进一步探索

评分¶

新颖性: ⭐⭐⭐⭐ （类比新颖，但方法本身相对简单）
实验充分度: ⭐⭐⭐⭐⭐ （多模型、多数据集、消融实验详尽、可视化分析到位）
写作质量: ⭐⭐⭐⭐⭐ （叙事流畅，类比清晰，图表出色）
价值: ⭐⭐⭐⭐ （实用性强，但理论基础有待加强）