Re-FORC: Adaptive Reward Prediction for Efficient Chain-of-Thought Reasoning¶
会议: NeurIPS 2025
arXiv: 2511.02130
代码: 有
领域: LLM推理
关键词: chain-of-thought, 推理效率, 奖励预测, 自适应计算, 测试时计算分配, Gittins index
一句话总结¶
提出Re-FORC,一个轻量级adapter在CoT推理过程中实时预测未来期望奖励 \(\psi(t|x,z,\pi)\),将推理计算分配建模为Pandora's box问题,实现自适应早停(节省26%计算)、模型+计算联合选择(同等计算下+4%准确率或同等准确率-55%计算)和测试时计算伸缩(+11%准确率),且用户可通过代价系数 \(\lambda\) 在推理时自由调控精度-效率权衡,无需重训。
研究背景与动机¶
- 领域现状:大语言模型的CoT推理(如DeepSeek-R1、QwQ等)通过延长思考链条显著提升数学等复杂推理任务的准确率。但更长的思考意味着更多的计算开销,而并非所有问题都需要同等长度的推理。
- 现有痛点:当前CoT推理缺乏"何时该停止思考"的自适应机制。简单问题浪费大量token做不必要的推理,难题又可能计算不足。现有方法要么需要重训模型(如强化学习压缩思维链),要么依赖简单启发式(固定长度截断),无法在推理时灵活调整。
- 核心矛盾:测试时计算的最优分配本质上是一个在不确定性下的序贯决策问题——在看到部分推理过程后,是继续推理(花更多算力)还是立即停止(接受当前结果),这取决于"继续推理能带来多少改进"的预期,但这个预期本身在推理过程中是未知的。
- 本文要解决什么? 设计一个轻量级的"推理预报器",在CoT生成过程中实时评估继续推理的边际收益,从而支持:(1) 何时停止单次推理?(2) 选哪个模型+多少计算?(3) 如何最优分配测试时计算预算?
- 切入角度:从元推理(metareasoning)和序贯决策理论出发,将CoT推理过程类比为Pandora's box问题,用Gittins index提供最优停止策略的理论支撑,同时设计轻量adapter使方案可与任意冻结LLM配合使用。
- 核心idea一句话:训练一个adapter预测"继续推理的期望奖励",将CoT计算分配转化为有理论保障的最优停止/选择问题。
方法详解¶
整体框架¶
Re-FORC由两部分组成:(1) 冻结的推理LLM \(\pi\)(如Qwen3系列)生成思维链token \(z\);(2) 轻量级Forecaster adapter \(\psi\) 实时读取已生成的部分推理 \((x, z_{1:t})\),预测当前推理在完成后的期望奖励。系统目标是最大化净效用 \(J = \mathbb{E}[R^*] - \lambda \cdot T_{\text{total}}\),其中 \(\lambda\) 为用户指定的计算代价系数。
关键设计¶
- Forecaster Adapter(奖励预报器):
- 做什么:给定问题 \(x\) 和已生成的推理前缀 \(z_{1:t}\),预测完成推理后的期望奖励分布
- 核心思路:在LLM的隐状态上附加self-attention pooling层 + 线性投影层,输出Beta分布参数 \((\alpha, \beta)\),建模有界 \([0,1]\) 奖励 \(\psi(t|x,z,\pi) \sim \text{Beta}(\alpha, \beta)\)
-
设计动机:Beta分布天然适合建模有界区间上的概率预测,且能表达从均匀分布到高置信度的各种不确定性状态;self-attention pooling从变长推理序列中提取固定维度表征
-
Pandora's Box 最优决策框架:
- 做什么:基于Forecaster的预测,为"继续推理 vs 停止"和"选哪个模型"提供理论最优策略
- 核心思路:将每个(模型, 计算量)组合视为一个"盒子",打开成本为 \(\lambda \cdot t\),内部奖励由预报器给出。Gittins index \(\sigma_i = \sup\{s : \mathbb{E}[\max(R_i - s, 0)] \geq \lambda \cdot c_i\}\) 给出最优策略——选index最高的盒子,当所有index低于当前最优时停止
-
设计动机:Pandora's box问题有已知最优解(Weitzman 1979),避免了需要为每种 \(\lambda\) 单独训练策略的问题;用户只需调 \(\lambda\) 即可在推理时切换效率-准确率偏好
-
Monte Carlo训练流程:
- 做什么:用采样方式构造(推理前缀, 未来奖励)训练对,训练Forecaster
- 核心思路:对每个问题 \(x\) 采样 \(K\) 条完整推理 \(z^{(k)}\),在预定义网格 \(T = \{0, 512, \ldots, 8192\}\) 上截取前缀,计算对应的ground-truth奖励 \(r^{(k)}\)。用Beta NLL损失训练:\(\mathcal{L} = -\sum \log p_{\text{Beta}}(r|\alpha, \beta)\)
- 设计动机:Monte Carlo采样直接利用冻结LLM生成训练数据,无需人工标注;网格化截取使训练高效且覆盖不同推理深度
训练策略¶
- 基于DeepScaleR-Preview数据集(40K数学推理问题),每个问题采样多条推理
- 冻结Qwen3-1.7B/4B/8B模型,仅训练adapter参数
- Forecaster在推理过程中逐步更新预测,Pearson相关性随推理步数和模型规模单调提升
实验关键数据¶
早停 & 模型+计算选择¶
| 策略 | 准确率 | 计算节省 | 说明 |
|---|---|---|---|
| 无早停 (baseline) | 100% (相对) | 0% | Qwen3-8B 全量推理 |
| Re-FORC 早停 | ≈100% (保持) | 26% | 自适应截断低价值推理 |
| Re-FORC 模型选择 (等计算) | +4% | — | 在多模型间动态路由 |
| Re-FORC 模型选择 (等准确率) | — | 55% | 小模型处理简单题 |
测试时计算伸缩¶
| 计算区间 | Re-FORC vs Baselines | 说明 |
|---|---|---|
| 高计算 | +11% 准确率 | 精确分配计算到难题 |
| 低计算 | +7% 准确率 | 高效截断低收益推理 |
关键发现¶
- Forecaster预测质量随推理深度单调改善:更多token → 更高Pearson相关性
- 更大模型的推理过程更可预测:8B > 4B > 1.7B的奖励预测准确度
- 用户可在推理时通过 \(\lambda\) 无缝调控效率-准确率曲线,无需重训任何参数
亮点与洞察¶
- 理论与实践的优雅结合:用Pandora's box/Gittins index将CoT计算分配问题形式化为有最优解的序贯决策问题,避免了临时启发式设计
- 推理时可调代价系数 \(\lambda\)是核心卖点——训练一次,在部署时通过 \(\lambda\) 自由控制精度-效率权衡,极大提升了实用性
- 轻量adapter设计使方案与任意冻结LLM即插即用,不修改基础模型权重,工程部署友好
- 55%的计算节省在等准确率下非常显著,对大规模推理服务的成本控制有直接价值
局限性 / 可改进方向¶
- 仅在数学推理(DeepScaleR)上验证,代码生成、逻辑推理等其他CoT场景的泛化性未知
- Forecaster需要在每个基础模型上单独训练adapter,模型切换成本非零
- Grid化截取点 \(T = \{0, 512, \ldots, 8192\}\) 较粗粒度,更细粒度或连续化预测可能带来额外收益
- 未与STILL系列、S1等"思维链压缩"方法做直接对比
- Beta分布假设可能不适用于多峰奖励分布的场景
相关工作与启发¶
- vs 思维链压缩(STILL/S1等):这些方法通过RL或蒸馏重训模型来压缩CoT,Re-FORC不改动模型,而是在推理时做自适应决策,两者互补
- vs Best-of-N采样:BoN在完成推理后选最优,Re-FORC在推理过程中实时预判,可在生成阶段就节省计算
评分¶
- 新颖性: ⭐⭐⭐⭐ 将元推理理论引入CoT效率优化,Pandora's box视角新颖;但adapter预测奖励的思路相对直观
- 实验充分度: ⭐⭐⭐⭐ 三种应用场景+多模型规模验证充分,但仅限数学推理领域
- 写作质量: ⭐⭐⭐⭐ 理论框架-方法-实验的逻辑清晰,数学符号规范
- 价值: ⭐⭐⭐⭐⭐ 推理时可调的计算分配方案对LLM serving有重要实用价值