跳转至

Towards Inference-Time Scaling for Continuous Space Reasoning

会议: AAAI 2026
arXiv: 2510.12167
代码: 待发布
领域: 对齐RLHF / 推理时扩展与连续空间推理
关键词: inference-time scaling, continuous reasoning, COCONUT, geometric homogeneity, process reward model

一句话总结

首次系统研究离散文本推理中的inference-time scaling技术能否迁移到连续潜空间推理模型(COCONUT),发现dropout采样能生成多样推理路径(Pass@32达44.43%),但PRM/ORM仅带来不足2.3%提升,根因在于连续思维表示缺乏区分正误推理的几何归纳偏置。

研究背景与动机

  1. 领域现状: 推理时扩展(inference-time scaling)在文本推理中已很成熟——通过生成多个样本+PRM/ORM重排来显著提升准确率。连续空间推理(如COCONUT)是新兴范式,在潜空间直接进行多步推理替代生成文本链。
  2. 现有痛点: COCONUT等连续推理模型的推理过程是确定性的,无法直接生成多样推理路径;且其连续思维向量的内部结构不透明,现有文本空间的PRM/ORM方法是否适用完全未知。
  3. 核心矛盾: Pass@N分析表明连续推理有巨大的扩展潜力(~13%绝对提升空间),但现有奖励模型方法论无法有效利用这一潜力——理论上界与实际收益之间存在巨大差距。
  4. 本文要解决什么? 回答两个关键问题:(1) 能否为连续推理生成多样化的推理路径?(2) 能否训练有效的PRM/ORM来对这些路径重排?
  5. 切入角度: 通过dropout注入随机性解决第一个问题,然后适配MATH-Shepherd数据标注框架训练PRM/ORM,最后通过几何分析、轨迹动态和扰动实验深入分析失败原因。
  6. 核心idea一句话: 连续推理的inference-time scaling潜力巨大,但连续思维的几何同质性是阻碍奖励模型有效区分的根本瓶颈。

方法详解

整体框架

三步走:(1) 用dropout采样为COCONUT生成多样推理轨迹;(2) 适配MATH-Shepherd标注框架训练PRM和ORM;(3) 系统分析连续推理空间的几何属性来解释奖励模型失效的原因。

关键设计

  1. Dropout采样生成多样轨迹
  2. 做什么:在连续推理阶段选择性启用dropout,文本生成阶段关闭,为确定性COCONUT注入可控随机性
  3. 核心思路:COCONUT隐状态 \(\mathbf{s}_i = f_\theta(X, \mathbf{s}_{<i})\) 在前向传播中受dropout影响,不同采样产生不同推理路径
  4. 设计动机:文本LLM通过token采样获得多样性,但COCONUT推理过程确定性没有token分布可采样,dropout是最自然的替代方案

  5. 连续空间的MC标注与奖励模型训练

  6. 做什么:适配MATH-Shepherd框架,对每个连续思维向量进行MC标注
  7. 核心思路:对每个推理步 \(s_i\),从该步出发生成N个完成结果,计算硬估计(有任一正确 \(y^{HE}_{s_i}=1\))和软估计(正确比例 \(y^{SE}_{s_i}\)
  8. 关键限制:连续表示是模型特定的——只有原始COCONUT能解读自己的潜空间,因此PRM/ORM只能以COCONUT自身为backbone

  9. 多维度分析连续推理空间

  10. 几何属性分析: 用IsoScore★(各向同性)和Hoyer(稀疏性)分析思维向量的高维分布特征
  11. 轨迹动态分析: 计算compactness(紧凑度)、curvature(曲率)、local smoothness(局部平滑度)、straightness(直线度)四个指标
  12. 扰动分析: 向潜空间注入不同强度的高斯噪声,观察推理性能变化
  13. 设计动机:如果正确和错误推理在几何上不可分,奖励模型原则上就无法学到有效的判别特征

损失函数 / 训练策略

  • PRM训练: 联合损失 \(\mathcal{L}_{PRM} = \mathcal{L}_{CE}(y^{HE}, \hat{y}^{HE}) + \mathcal{L}_{MSE}(y^{SE}, \hat{y}^{SE})\)
  • ORM训练: 交叉熵损失 \(\mathcal{L}_{ORM} = \mathcal{L}_{CE}(r^{OUT}, \hat{r}^{OUT})\)
  • 正负样本1:1平衡,PRM 238k样本,ORM 324k样本,10 epochs,learning rate 1e-4

实验关键数据

主实验 - GSM8k上不同重排方法的Best-of-N性能

方法 N=1 N=4 N=8 N=16 N=32
Pass@N (理论上界) 31.08 38.67 41.02 42.61 44.43
Confidence 31.08 30.48 29.87 31.39 30.71
Self-Consistency 31.08 31.61 31.24 32.15 32.15
PRM-HE 31.08 32.45 33.06 33.36 32.83
ORM 31.08 32.15 31.46 32.37 31.39
PRM-SE 31.08 32.37 32.52 32.37 33.28

分析实验 - 连续思维的几何属性

指标 正确思维 错误思维 差异
IsoScore★ (全集) 0.0134 0.013 可忽略
Hoyer (全集) 0.21±0.01 0.22±0.01 可忽略
Compactness (全集) 19.81±2.53 19.39±2.48 p=0.023, Cohen's d=0.17
Local Smoothness (PRM+) 0.39±0.09 0.48±0.10 p=0.049, Cohen's d=-0.97

关键发现

  • 巨大的潜力-收益差距: Pass@32理论上界44.43%,但PRM/ORM最佳仅33.36%(+2.28%),比离散文本空间的同类方法差得多
  • 几何同质性: 正确和错误的连续思维在IsoScore★、Hoyer等几何指标上几乎无差异,t-SNE也显示完全混合
  • 高鲁棒性也是问题: 噪声扰动实验中,低噪声比例(0-0.2)几乎不影响性能;即使完全噪声替换(ratio=1.0),Pass@5仍有12.59%,说明COCONUT的推理并不完全依赖连续思维
  • Confidence重排无效: 说明COCONUT缺乏有效的概率校准
  • 聚合策略无关紧要: PRM的min/max/mean/last聚合策略差异极小(Table 2),确认问题不在打分方式而在表示本身

亮点与洞察

  • 首次系统性研究: 第一个将inference-time scaling应用于连续空间推理的工作,建立了benchmark和分析框架
  • dropout采样的简洁性: 用训练阶段本就存在的dropout来注入随机性,零额外训练成本
  • 分析深度: 从分类性能→几何属性→轨迹动态→扰动实验四个层面逐步深入,形式严谨
  • 关键insight: 连续推理训练仅优化最终答案准确率,没有引入促使正误推理结构分化的归纳偏置——这是根本原因
  • 建设性方向: 提出对比学习、各向同性约束、轨迹多样性等未来方向

局限性 / 可改进方向

  • 仅基于GPT-2 + COCONUT(较小模型),未验证大模型连续推理是否有同样问题
  • 仅在GSM8k上实验,未测试其他推理任务(如代码生成、逻辑推理等)
  • 分析性质为主,诊断了问题但未提出具体的改进训练方法
  • dropout采样导致N=1时略低于确定性推理(~31% vs ~31.08%),需要更好的多样性注入方案
  • PRM/ORM仅用COCONUT自身backbone,未探索外部判别模型的可能性
  • 连续推理步数固定为 \(T=6\)\(3 \times c\), \(c=2\)),未探索不同推理长度的影响
  • 噪声实验中ratio=1.0时仍有12.59%准确率,暗示部分问题根本不需要连续推理即可求解

相关工作与启发

  • COCONUT (Hao et al. 2024): 连续思维推理的开创性工作 → 本文揭示其训练范式的根本局限
  • MATH-Shepherd (Wang et al. 2024): 离散空间MC标注的标准方法 → 直接迁移到连续空间效果有限
  • CODI/CCOT/CoT²: 其他连续推理方法 → 可能面临相同的几何同质性问题
  • 对连续推理训练的启发: 未来需要在训练目标中显式加入几何区分性约束(如contrastive loss),不能只优化答案准确率

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次系统研究连续空间推理的inference-time scaling,研究问题本身就是重要贡献
  • 实验充分度: ⭐⭐⭐⭐ 从多个独立角度分析问题(几何、轨迹、扰动),分析全面深入
  • 写作质量: ⭐⭐⭐⭐ 逻辑链条清晰:发现潜力→尝试利用→分析失败→指明方向
  • 价值: ⭐⭐⭐⭐⭐ 对连续推理的未来发展有奠基性指导意义,明确了训练范式需要改变的方向