Re-FORC: Adaptive Reward Prediction for Efficient Chain-of-Thought Reasoning¶

会议: NeurIPS 2025
arXiv: 2511.02130
代码: 有
领域: LLM推理
关键词: chain-of-thought, 推理效率, 奖励预测, 自适应计算, 测试时计算分配, Gittins index

一句话总结¶

提出Re-FORC，一个轻量级adapter在CoT推理过程中实时预测未来期望奖励 \(\psi(t|x,z,\pi)\)，将推理计算分配建模为Pandora's box问题，实现自适应早停（节省26%计算）、模型+计算联合选择（同等计算下+4%准确率或同等准确率-55%计算）和测试时计算伸缩（+11%准确率），且用户可通过代价系数 \(\lambda\) 在推理时自由调控精度-效率权衡，无需重训。

研究背景与动机¶

领域现状：大语言模型的CoT推理（如DeepSeek-R1、QwQ等）通过延长思考链条显著提升数学等复杂推理任务的准确率。但更长的思考意味着更多的计算开销，而并非所有问题都需要同等长度的推理。
现有痛点：当前CoT推理缺乏"何时该停止思考"的自适应机制。简单问题浪费大量token做不必要的推理，难题又可能计算不足。现有方法要么需要重训模型（如强化学习压缩思维链），要么依赖简单启发式（固定长度截断），无法在推理时灵活调整。
核心矛盾：测试时计算的最优分配本质上是一个在不确定性下的序贯决策问题——在看到部分推理过程后，是继续推理（花更多算力）还是立即停止（接受当前结果），这取决于"继续推理能带来多少改进"的预期，但这个预期本身在推理过程中是未知的。
本文要解决什么？ 设计一个轻量级的"推理预报器"，在CoT生成过程中实时评估继续推理的边际收益，从而支持：(1) 何时停止单次推理？(2) 选哪个模型+多少计算？(3) 如何最优分配测试时计算预算？
切入角度：从元推理(metareasoning)和序贯决策理论出发，将CoT推理过程类比为Pandora's box问题，用Gittins index提供最优停止策略的理论支撑，同时设计轻量adapter使方案可与任意冻结LLM配合使用。
核心idea一句话：训练一个adapter预测"继续推理的期望奖励"，将CoT计算分配转化为有理论保障的最优停止/选择问题。

方法详解¶

整体框架¶

Re-FORC由两部分组成：(1) 冻结的推理LLM \(\pi\)（如Qwen3系列）生成思维链token \(z\)；(2) 轻量级Forecaster adapter \(\psi\) 实时读取已生成的部分推理 \((x, z_{1:t})\)，预测当前推理在完成后的期望奖励。系统目标是最大化净效用 \(J = \mathbb{E}[R^*] - \lambda \cdot T_{\text{total}}\)，其中 \(\lambda\) 为用户指定的计算代价系数。

关键设计¶

Forecaster Adapter（奖励预报器）:
做什么：给定问题 \(x\) 和已生成的推理前缀 \(z_{1:t}\)，预测完成推理后的期望奖励分布
核心思路：在LLM的隐状态上附加self-attention pooling层 + 线性投影层，输出Beta分布参数 \((\alpha, \beta)\)，建模有界 \([0,1]\) 奖励 \(\psi(t|x,z,\pi) \sim \text{Beta}(\alpha, \beta)\)
设计动机：Beta分布天然适合建模有界区间上的概率预测，且能表达从均匀分布到高置信度的各种不确定性状态；self-attention pooling从变长推理序列中提取固定维度表征
Pandora's Box 最优决策框架:
做什么：基于Forecaster的预测，为"继续推理 vs 停止"和"选哪个模型"提供理论最优策略
核心思路：将每个(模型, 计算量)组合视为一个"盒子"，打开成本为 \(\lambda \cdot t\)，内部奖励由预报器给出。Gittins index \(\sigma_i = \sup\{s : \mathbb{E}[\max(R_i - s, 0)] \geq \lambda \cdot c_i\}\) 给出最优策略——选index最高的盒子，当所有index低于当前最优时停止
设计动机：Pandora's box问题有已知最优解（Weitzman 1979），避免了需要为每种 \(\lambda\) 单独训练策略的问题；用户只需调 \(\lambda\) 即可在推理时切换效率-准确率偏好
Monte Carlo训练流程:
做什么：用采样方式构造(推理前缀, 未来奖励)训练对，训练Forecaster
核心思路：对每个问题 \(x\) 采样 \(K\) 条完整推理 \(z^{(k)}\)，在预定义网格 \(T = \{0, 512, \ldots, 8192\}\) 上截取前缀，计算对应的ground-truth奖励 \(r^{(k)}\)。用Beta NLL损失训练：\(\mathcal{L} = -\sum \log p_{\text{Beta}}(r|\alpha, \beta)\)
设计动机：Monte Carlo采样直接利用冻结LLM生成训练数据，无需人工标注；网格化截取使训练高效且覆盖不同推理深度

训练策略¶

基于DeepScaleR-Preview数据集（40K数学推理问题），每个问题采样多条推理
冻结Qwen3-1.7B/4B/8B模型，仅训练adapter参数
Forecaster在推理过程中逐步更新预测，Pearson相关性随推理步数和模型规模单调提升

实验关键数据¶

早停 & 模型+计算选择¶

策略	准确率	计算节省	说明
无早停 (baseline)	100% (相对)	0%	Qwen3-8B 全量推理
Re-FORC 早停	≈100% (保持)	26%	自适应截断低价值推理
Re-FORC 模型选择 (等计算)	+4%	—	在多模型间动态路由
Re-FORC 模型选择 (等准确率)	—	55%	小模型处理简单题

测试时计算伸缩¶

计算区间	Re-FORC vs Baselines	说明
高计算	+11% 准确率	精确分配计算到难题
低计算	+7% 准确率	高效截断低收益推理

关键发现¶

Forecaster预测质量随推理深度单调改善：更多token → 更高Pearson相关性
更大模型的推理过程更可预测：8B > 4B > 1.7B的奖励预测准确度
用户可在推理时通过 \(\lambda\) 无缝调控效率-准确率曲线，无需重训任何参数

亮点与洞察¶

理论与实践的优雅结合：用Pandora's box/Gittins index将CoT计算分配问题形式化为有最优解的序贯决策问题，避免了临时启发式设计
推理时可调代价系数 \(\lambda\)是核心卖点——训练一次，在部署时通过 \(\lambda\) 自由控制精度-效率权衡，极大提升了实用性
轻量adapter设计使方案与任意冻结LLM即插即用，不修改基础模型权重，工程部署友好
55%的计算节省在等准确率下非常显著，对大规模推理服务的成本控制有直接价值

局限性 / 可改进方向¶

仅在数学推理（DeepScaleR）上验证，代码生成、逻辑推理等其他CoT场景的泛化性未知
Forecaster需要在每个基础模型上单独训练adapter，模型切换成本非零
Grid化截取点 \(T = \{0, 512, \ldots, 8192\}\) 较粗粒度，更细粒度或连续化预测可能带来额外收益
未与STILL系列、S1等"思维链压缩"方法做直接对比
Beta分布假设可能不适用于多峰奖励分布的场景

评分¶

新颖性: ⭐⭐⭐⭐ 将元推理理论引入CoT效率优化，Pandora's box视角新颖；但adapter预测奖励的思路相对直观
实验充分度: ⭐⭐⭐⭐ 三种应用场景+多模型规模验证充分，但仅限数学推理领域
写作质量: ⭐⭐⭐⭐ 理论框架-方法-实验的逻辑清晰，数学符号规范
价值: ⭐⭐⭐⭐⭐ 推理时可调的计算分配方案对LLM serving有重要实用价值