跳转至

Re-FORC: Adaptive Reward Prediction for Efficient Chain-of-Thought Reasoning

会议: NeurIPS 2025
arXiv: 2511.02130
代码: 有
领域: LLM推理
关键词: chain-of-thought, 推理效率, 奖励预测, 自适应计算, 测试时计算分配, Gittins index

一句话总结

提出Re-FORC,一个轻量级adapter在CoT推理过程中实时预测未来期望奖励 \(\psi(t|x,z,\pi)\),将推理计算分配建模为Pandora's box问题,实现自适应早停(节省26%计算)、模型+计算联合选择(同等计算下+4%准确率或同等准确率-55%计算)和测试时计算伸缩(+11%准确率),且用户可通过代价系数 \(\lambda\) 在推理时自由调控精度-效率权衡,无需重训。

研究背景与动机

  1. 领域现状:大语言模型的CoT推理(如DeepSeek-R1、QwQ等)通过延长思考链条显著提升数学等复杂推理任务的准确率。但更长的思考意味着更多的计算开销,而并非所有问题都需要同等长度的推理。
  2. 现有痛点:当前CoT推理缺乏"何时该停止思考"的自适应机制。简单问题浪费大量token做不必要的推理,难题又可能计算不足。现有方法要么需要重训模型(如强化学习压缩思维链),要么依赖简单启发式(固定长度截断),无法在推理时灵活调整。
  3. 核心矛盾:测试时计算的最优分配本质上是一个在不确定性下的序贯决策问题——在看到部分推理过程后,是继续推理(花更多算力)还是立即停止(接受当前结果),这取决于"继续推理能带来多少改进"的预期,但这个预期本身在推理过程中是未知的。
  4. 本文要解决什么? 设计一个轻量级的"推理预报器",在CoT生成过程中实时评估继续推理的边际收益,从而支持:(1) 何时停止单次推理?(2) 选哪个模型+多少计算?(3) 如何最优分配测试时计算预算?
  5. 切入角度:从元推理(metareasoning)和序贯决策理论出发,将CoT推理过程类比为Pandora's box问题,用Gittins index提供最优停止策略的理论支撑,同时设计轻量adapter使方案可与任意冻结LLM配合使用。
  6. 核心idea一句话:训练一个adapter预测"继续推理的期望奖励",将CoT计算分配转化为有理论保障的最优停止/选择问题。

方法详解

整体框架

Re-FORC由两部分组成:(1) 冻结的推理LLM \(\pi\)(如Qwen3系列)生成思维链token \(z\);(2) 轻量级Forecaster adapter \(\psi\) 实时读取已生成的部分推理 \((x, z_{1:t})\),预测当前推理在完成后的期望奖励。系统目标是最大化净效用 \(J = \mathbb{E}[R^*] - \lambda \cdot T_{\text{total}}\),其中 \(\lambda\) 为用户指定的计算代价系数。

关键设计

  1. Forecaster Adapter(奖励预报器):
  2. 做什么:给定问题 \(x\) 和已生成的推理前缀 \(z_{1:t}\),预测完成推理后的期望奖励分布
  3. 核心思路:在LLM的隐状态上附加self-attention pooling层 + 线性投影层,输出Beta分布参数 \((\alpha, \beta)\),建模有界 \([0,1]\) 奖励 \(\psi(t|x,z,\pi) \sim \text{Beta}(\alpha, \beta)\)
  4. 设计动机:Beta分布天然适合建模有界区间上的概率预测,且能表达从均匀分布到高置信度的各种不确定性状态;self-attention pooling从变长推理序列中提取固定维度表征

  5. Pandora's Box 最优决策框架:

  6. 做什么:基于Forecaster的预测,为"继续推理 vs 停止"和"选哪个模型"提供理论最优策略
  7. 核心思路:将每个(模型, 计算量)组合视为一个"盒子",打开成本为 \(\lambda \cdot t\),内部奖励由预报器给出。Gittins index \(\sigma_i = \sup\{s : \mathbb{E}[\max(R_i - s, 0)] \geq \lambda \cdot c_i\}\) 给出最优策略——选index最高的盒子,当所有index低于当前最优时停止
  8. 设计动机:Pandora's box问题有已知最优解(Weitzman 1979),避免了需要为每种 \(\lambda\) 单独训练策略的问题;用户只需调 \(\lambda\) 即可在推理时切换效率-准确率偏好

  9. Monte Carlo训练流程:

  10. 做什么:用采样方式构造(推理前缀, 未来奖励)训练对,训练Forecaster
  11. 核心思路:对每个问题 \(x\) 采样 \(K\) 条完整推理 \(z^{(k)}\),在预定义网格 \(T = \{0, 512, \ldots, 8192\}\) 上截取前缀,计算对应的ground-truth奖励 \(r^{(k)}\)。用Beta NLL损失训练:\(\mathcal{L} = -\sum \log p_{\text{Beta}}(r|\alpha, \beta)\)
  12. 设计动机:Monte Carlo采样直接利用冻结LLM生成训练数据,无需人工标注;网格化截取使训练高效且覆盖不同推理深度

训练策略

  • 基于DeepScaleR-Preview数据集(40K数学推理问题),每个问题采样多条推理
  • 冻结Qwen3-1.7B/4B/8B模型,仅训练adapter参数
  • Forecaster在推理过程中逐步更新预测,Pearson相关性随推理步数和模型规模单调提升

实验关键数据

早停 & 模型+计算选择

策略 准确率 计算节省 说明
无早停 (baseline) 100% (相对) 0% Qwen3-8B 全量推理
Re-FORC 早停 ≈100% (保持) 26% 自适应截断低价值推理
Re-FORC 模型选择 (等计算) +4% 在多模型间动态路由
Re-FORC 模型选择 (等准确率) 55% 小模型处理简单题

测试时计算伸缩

计算区间 Re-FORC vs Baselines 说明
高计算 +11% 准确率 精确分配计算到难题
低计算 +7% 准确率 高效截断低收益推理

关键发现

  • Forecaster预测质量随推理深度单调改善:更多token → 更高Pearson相关性
  • 更大模型的推理过程更可预测:8B > 4B > 1.7B的奖励预测准确度
  • 用户可在推理时通过 \(\lambda\) 无缝调控效率-准确率曲线,无需重训任何参数

亮点与洞察

  • 理论与实践的优雅结合:用Pandora's box/Gittins index将CoT计算分配问题形式化为有最优解的序贯决策问题,避免了临时启发式设计
  • 推理时可调代价系数 \(\lambda\)是核心卖点——训练一次,在部署时通过 \(\lambda\) 自由控制精度-效率权衡,极大提升了实用性
  • 轻量adapter设计使方案与任意冻结LLM即插即用,不修改基础模型权重,工程部署友好
  • 55%的计算节省在等准确率下非常显著,对大规模推理服务的成本控制有直接价值

局限性 / 可改进方向

  • 仅在数学推理(DeepScaleR)上验证,代码生成、逻辑推理等其他CoT场景的泛化性未知
  • Forecaster需要在每个基础模型上单独训练adapter,模型切换成本非零
  • Grid化截取点 \(T = \{0, 512, \ldots, 8192\}\) 较粗粒度,更细粒度或连续化预测可能带来额外收益
  • 未与STILL系列、S1等"思维链压缩"方法做直接对比
  • Beta分布假设可能不适用于多峰奖励分布的场景

相关工作与启发

  • vs 思维链压缩(STILL/S1等):这些方法通过RL或蒸馏重训模型来压缩CoT,Re-FORC不改动模型,而是在推理时做自适应决策,两者互补
  • vs Best-of-N采样:BoN在完成推理后选最优,Re-FORC在推理过程中实时预判,可在生成阶段就节省计算

评分

  • 新颖性: ⭐⭐⭐⭐ 将元推理理论引入CoT效率优化,Pandora's box视角新颖;但adapter预测奖励的思路相对直观
  • 实验充分度: ⭐⭐⭐⭐ 三种应用场景+多模型规模验证充分,但仅限数学推理领域
  • 写作质量: ⭐⭐⭐⭐ 理论框架-方法-实验的逻辑清晰,数学符号规范
  • 价值: ⭐⭐⭐⭐⭐ 推理时可调的计算分配方案对LLM serving有重要实用价值