Towards Inference-Time Scaling for Continuous Space Reasoning¶
会议: AAAI 2026
arXiv: 2510.12167
代码: 待发布
领域: 对齐RLHF / 推理时扩展与连续空间推理
关键词: inference-time scaling, continuous reasoning, COCONUT, geometric homogeneity, process reward model
一句话总结¶
首次系统研究离散文本推理中的inference-time scaling技术能否迁移到连续潜空间推理模型(COCONUT),发现dropout采样能生成多样推理路径(Pass@32达44.43%),但PRM/ORM仅带来不足2.3%提升,根因在于连续思维表示缺乏区分正误推理的几何归纳偏置。
研究背景与动机¶
- 领域现状: 推理时扩展(inference-time scaling)在文本推理中已很成熟——通过生成多个样本+PRM/ORM重排来显著提升准确率。连续空间推理(如COCONUT)是新兴范式,在潜空间直接进行多步推理替代生成文本链。
- 现有痛点: COCONUT等连续推理模型的推理过程是确定性的,无法直接生成多样推理路径;且其连续思维向量的内部结构不透明,现有文本空间的PRM/ORM方法是否适用完全未知。
- 核心矛盾: Pass@N分析表明连续推理有巨大的扩展潜力(~13%绝对提升空间),但现有奖励模型方法论无法有效利用这一潜力——理论上界与实际收益之间存在巨大差距。
- 本文要解决什么? 回答两个关键问题:(1) 能否为连续推理生成多样化的推理路径?(2) 能否训练有效的PRM/ORM来对这些路径重排?
- 切入角度: 通过dropout注入随机性解决第一个问题,然后适配MATH-Shepherd数据标注框架训练PRM/ORM,最后通过几何分析、轨迹动态和扰动实验深入分析失败原因。
- 核心idea一句话: 连续推理的inference-time scaling潜力巨大,但连续思维的几何同质性是阻碍奖励模型有效区分的根本瓶颈。
方法详解¶
整体框架¶
三步走:(1) 用dropout采样为COCONUT生成多样推理轨迹;(2) 适配MATH-Shepherd标注框架训练PRM和ORM;(3) 系统分析连续推理空间的几何属性来解释奖励模型失效的原因。
关键设计¶
- Dropout采样生成多样轨迹
- 做什么:在连续推理阶段选择性启用dropout,文本生成阶段关闭,为确定性COCONUT注入可控随机性
- 核心思路:COCONUT隐状态 \(\mathbf{s}_i = f_\theta(X, \mathbf{s}_{<i})\) 在前向传播中受dropout影响,不同采样产生不同推理路径
-
设计动机:文本LLM通过token采样获得多样性,但COCONUT推理过程确定性没有token分布可采样,dropout是最自然的替代方案
-
连续空间的MC标注与奖励模型训练
- 做什么:适配MATH-Shepherd框架,对每个连续思维向量进行MC标注
- 核心思路:对每个推理步 \(s_i\),从该步出发生成N个完成结果,计算硬估计(有任一正确 \(y^{HE}_{s_i}=1\))和软估计(正确比例 \(y^{SE}_{s_i}\))
-
关键限制:连续表示是模型特定的——只有原始COCONUT能解读自己的潜空间,因此PRM/ORM只能以COCONUT自身为backbone
-
多维度分析连续推理空间
- 几何属性分析: 用IsoScore★(各向同性)和Hoyer(稀疏性)分析思维向量的高维分布特征
- 轨迹动态分析: 计算compactness(紧凑度)、curvature(曲率)、local smoothness(局部平滑度)、straightness(直线度)四个指标
- 扰动分析: 向潜空间注入不同强度的高斯噪声,观察推理性能变化
- 设计动机:如果正确和错误推理在几何上不可分,奖励模型原则上就无法学到有效的判别特征
损失函数 / 训练策略¶
- PRM训练: 联合损失 \(\mathcal{L}_{PRM} = \mathcal{L}_{CE}(y^{HE}, \hat{y}^{HE}) + \mathcal{L}_{MSE}(y^{SE}, \hat{y}^{SE})\)
- ORM训练: 交叉熵损失 \(\mathcal{L}_{ORM} = \mathcal{L}_{CE}(r^{OUT}, \hat{r}^{OUT})\)
- 正负样本1:1平衡,PRM 238k样本,ORM 324k样本,10 epochs,learning rate 1e-4
实验关键数据¶
主实验 - GSM8k上不同重排方法的Best-of-N性能¶
| 方法 | N=1 | N=4 | N=8 | N=16 | N=32 |
|---|---|---|---|---|---|
| Pass@N (理论上界) | 31.08 | 38.67 | 41.02 | 42.61 | 44.43 |
| Confidence | 31.08 | 30.48 | 29.87 | 31.39 | 30.71 |
| Self-Consistency | 31.08 | 31.61 | 31.24 | 32.15 | 32.15 |
| PRM-HE | 31.08 | 32.45 | 33.06 | 33.36 | 32.83 |
| ORM | 31.08 | 32.15 | 31.46 | 32.37 | 31.39 |
| PRM-SE | 31.08 | 32.37 | 32.52 | 32.37 | 33.28 |
分析实验 - 连续思维的几何属性¶
| 指标 | 正确思维 | 错误思维 | 差异 |
|---|---|---|---|
| IsoScore★ (全集) | 0.0134 | 0.013 | 可忽略 |
| Hoyer (全集) | 0.21±0.01 | 0.22±0.01 | 可忽略 |
| Compactness (全集) | 19.81±2.53 | 19.39±2.48 | p=0.023, Cohen's d=0.17 |
| Local Smoothness (PRM+) | 0.39±0.09 | 0.48±0.10 | p=0.049, Cohen's d=-0.97 |
关键发现¶
- 巨大的潜力-收益差距: Pass@32理论上界44.43%,但PRM/ORM最佳仅33.36%(+2.28%),比离散文本空间的同类方法差得多
- 几何同质性: 正确和错误的连续思维在IsoScore★、Hoyer等几何指标上几乎无差异,t-SNE也显示完全混合
- 高鲁棒性也是问题: 噪声扰动实验中,低噪声比例(0-0.2)几乎不影响性能;即使完全噪声替换(ratio=1.0),Pass@5仍有12.59%,说明COCONUT的推理并不完全依赖连续思维
- Confidence重排无效: 说明COCONUT缺乏有效的概率校准
- 聚合策略无关紧要: PRM的min/max/mean/last聚合策略差异极小(Table 2),确认问题不在打分方式而在表示本身
亮点与洞察¶
- 首次系统性研究: 第一个将inference-time scaling应用于连续空间推理的工作,建立了benchmark和分析框架
- dropout采样的简洁性: 用训练阶段本就存在的dropout来注入随机性,零额外训练成本
- 分析深度: 从分类性能→几何属性→轨迹动态→扰动实验四个层面逐步深入,形式严谨
- 关键insight: 连续推理训练仅优化最终答案准确率,没有引入促使正误推理结构分化的归纳偏置——这是根本原因
- 建设性方向: 提出对比学习、各向同性约束、轨迹多样性等未来方向
局限性 / 可改进方向¶
- 仅基于GPT-2 + COCONUT(较小模型),未验证大模型连续推理是否有同样问题
- 仅在GSM8k上实验,未测试其他推理任务(如代码生成、逻辑推理等)
- 分析性质为主,诊断了问题但未提出具体的改进训练方法
- dropout采样导致N=1时略低于确定性推理(~31% vs ~31.08%),需要更好的多样性注入方案
- PRM/ORM仅用COCONUT自身backbone,未探索外部判别模型的可能性
- 连续推理步数固定为 \(T=6\)(\(3 \times c\), \(c=2\)),未探索不同推理长度的影响
- 噪声实验中ratio=1.0时仍有12.59%准确率,暗示部分问题根本不需要连续推理即可求解
相关工作与启发¶
- COCONUT (Hao et al. 2024): 连续思维推理的开创性工作 → 本文揭示其训练范式的根本局限
- MATH-Shepherd (Wang et al. 2024): 离散空间MC标注的标准方法 → 直接迁移到连续空间效果有限
- CODI/CCOT/CoT²: 其他连续推理方法 → 可能面临相同的几何同质性问题
- 对连续推理训练的启发: 未来需要在训练目标中显式加入几何区分性约束(如contrastive loss),不能只优化答案准确率
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统研究连续空间推理的inference-time scaling,研究问题本身就是重要贡献
- 实验充分度: ⭐⭐⭐⭐ 从多个独立角度分析问题(几何、轨迹、扰动),分析全面深入
- 写作质量: ⭐⭐⭐⭐ 逻辑链条清晰:发现潜力→尝试利用→分析失败→指明方向
- 价值: ⭐⭐⭐⭐⭐ 对连续推理的未来发展有奠基性指导意义,明确了训练范式需要改变的方向