Budget-Aware Anytime Reasoning with LLM-Synthesized Preference Data¶

会议: ACL 2026
arXiv: 2601.11038
代码: 无
领域: LLM 推理效率
关键词: 预算感知推理, Anytime Index, 偏好数据提示, 测试时缩放, 推理效率

一句话总结¶

本文提出了一种预算感知的任意时推理（anytime reasoning）框架和 Anytime Index 指标，用于量化 LLM 在有限 token 预算下的推理质量-效率权衡，并设计了基于 LLM 自合成偏好数据的推理时自改进方法（PDP），在规划、数学和科学 QA 任务上显著提升了中间和最终解的质量。

研究背景与动机¶

领域现状：LLM 通过 Chain-of-Thought (CoT)、Tree-of-Thoughts 等方法展示了强大的推理能力。测试时缩放（test-time scaling）成为提升推理性能的重要手段，但现有方法通常假设无限制的计算资源，仅评估最终答案质量。

现有痛点：(1) 许多实际场景面临严格的计算或延迟预算限制，即使是部分解也比无解有用（如不完整但可行的旅行计划）；(2) 现有方法缺乏原则性的方式来评估推理质量随 token 增长的轨迹；(3) 预算感知技术（如 BRPO）关注"何时停止思考"但不关注"如何在约束下更好地思考"。

核心矛盾：现实中的推理任务需要在有限预算内产出最优中间解，但当前的评估和优化框架都只关注最终答案，忽视了推理轨迹的效率。

本文目标：(1) 建立评估 LLM 在不同 token 预算下推理效率的框架和指标；(2) 提供一种提升预算感知推理质量的方法。

切入角度：借鉴经典 AI 中的任意时算法（anytime algorithm）概念，将推理视为随 token 预算递增的质量递增过程。

核心 idea：通过截断推理轨迹并在各检查点评估解质量来量化推理效率，并利用模型自身生成的推理比较来构建偏好数据，作为上下文示例提升中间解质量。

方法详解¶

整体框架¶

框架分为两部分：(1) 评估框架——对每个任务采样 N 条 CoT 轨迹，在一系列 token 预算检查点 \(b_1, b_2, \ldots, b_n\) 处截断，重新提示模型基于截断推理生成最终答案，计算 Anytime Index；(2) Preference Data Prompting (PDP)——模型在固定预算处生成多条推理轨迹，识别导致更高质量中间解的轨迹对作为偏好对，在推理时作为上下文示例使用。

关键设计¶

Anytime Index 指标:
- 功能：量化模型在不同 token 预算下的推理效率
- 核心思路：定义 \(Q_t^* = \max_{i \leq t} Q_i\) 为截至预算 \(b_t\) 的最优质量分数。Anytime Index 使用梯形法则计算质量曲线下面积并归一化：\(\text{AI} = \frac{\sum_{t=1}^{T-1} \frac{Q_t^* + Q_{t+1}^*}{2} \cdot (b_{t+1} - b_t)}{(b_T - b_1) \cdot Q_{\max}}\)，值域 [0,1]。值越高表示模型越快地接近高质量解
- 设计动机：区分"快思考"和"慢思考"模型——两个模型最终分数相同，但如果一个在小预算时就达到高质量，其 Anytime Index 更高
Preference Data Prompting (PDP):
- 功能：在推理时提升中间解质量，无需额外训练
- 核心思路：(a) 对同一任务在固定 token 预算处生成多条推理轨迹；(b) 识别导致更高/更低质量中间解的轨迹对构成偏好对（winner vs loser）；(c) 将偏好对作为上下文示例（in-context examples）在推理时提供给模型。PDP(+) 仅使用正例，PDP 同时使用正负例
- 设计动机：让模型从自身的推理比较中学习，不需要人工监督；作为推理时方法，可以应用于任何 LLM
评估管道设计:
- 功能：标准化任意时推理的评估流程
- 核心思路：每个任务采样 N 条完整 CoT 轨迹（NaturalPlan 最多 4096 token，AIME/GPQA 最多 16384 token）。在预设检查点截断推理，用截断推理作为前缀重新提示模型生成答案。使用任务特定质量指标（规划用约束满足率，数学/QA 用准确率）
- 设计动机：模拟真实场景中推理被提前中断的情况，评估模型在有限计算下的最优输出能力

损失函数 / 训练策略¶

PDP 是纯推理时方法，不涉及模型训练。偏好数据通过模型自身的多次采样和质量比较自动生成。

实验关键数据¶

主实验¶

Grok-3 结果

方法	NaturalPlan Final	AIME Final	GPQA Final	Overall Final
Base	74.7	24.0	69.8	56.2
LEAP	87.9	22.8	69.3	60.0
PDP	90.2	24.9	69.7	61.6

Grok-3-mini 结果

方法	NaturalPlan Final	AIME Final	GPQA Final	Overall Final
Base	81.5	80.6	99.3	87.1
PDP	90.7	100.0	98.9	96.5

消融实验¶

PDP 在 Anytime Index 上也带来一致提升（如 Grok-3-mini 从 85.4 提升到 88.7）
PDP 在推理型模型（如 Grok-3-mini）上的提升比非推理型模型更显著
正负偏好对（PDP）通常优于仅正例（PDP(+)），说明负例的对比信息有价值

关键发现¶

不同模型族在 Anytime Index 上展现出截然不同的推理效率特征
推理型模型（如 Grok-3-mini）在较早预算点就能产出高质量解，Anytime Index 更高
PDP 在三个不同类型的任务上都带来一致的提升，验证了方法的通用性
Anytime Index 揭示了模型间仅通过最终准确率无法发现的效率差异

亮点与洞察¶

Anytime Index 是对 LLM 推理评估的重要补充，填补了"质量轨迹"评估的空白
PDP 作为纯推理时方法，无需训练即可提升多种模型的推理效率
实验覆盖了 Grok、GPT、LLaMA 等多个模型族，结论具有广泛适用性
"任意时推理"的概念从经典 AI 成功迁移到 LLM 领域

局限与展望¶

PDP 需要在推理时额外生成多条轨迹用于构建偏好数据，增加了推理开销
偏好数据的质量依赖于模型自身的采样多样性
Anytime Index 的检查点设置可能影响评估结果
未来可探索将 PDP 的偏好数据用于微调而非仅用于上下文学习

评分¶

新颖性: ⭐⭐⭐⭐ Anytime Index 概念新颖，PDP 方法实用
实验充分度: ⭐⭐⭐⭐ 多模型族、多任务、多指标的全面评估
写作质量: ⭐⭐⭐⭐ 框架定义清晰，实验组织有序