Towards Inference-Time Scaling for Continuous Space Reasoning¶

会议: AAAI 2026
arXiv: 2510.12167
代码: 待发布
领域: 对齐RLHF / 推理时扩展与连续空间推理
关键词: inference-time scaling, continuous reasoning, COCONUT, geometric homogeneity, process reward model

一句话总结¶

首次系统研究离散文本推理中的inference-time scaling技术能否迁移到连续潜空间推理模型（COCONUT），发现dropout采样能生成多样推理路径（Pass@32达44.43%），但PRM/ORM仅带来不足2.3%提升，根因在于连续思维表示缺乏区分正误推理的几何归纳偏置。

研究背景与动机¶

领域现状: 推理时扩展（inference-time scaling）在文本推理中已很成熟——通过生成多个样本+PRM/ORM重排来显著提升准确率。连续空间推理（如COCONUT）是新兴范式，在潜空间直接进行多步推理替代生成文本链。
现有痛点: COCONUT等连续推理模型的推理过程是确定性的，无法直接生成多样推理路径；且其连续思维向量的内部结构不透明，现有文本空间的PRM/ORM方法是否适用完全未知。
核心矛盾: Pass@N分析表明连续推理有巨大的扩展潜力（~13%绝对提升空间），但现有奖励模型方法论无法有效利用这一潜力——理论上界与实际收益之间存在巨大差距。
本文要解决什么？ 回答两个关键问题：(1) 能否为连续推理生成多样化的推理路径？(2) 能否训练有效的PRM/ORM来对这些路径重排？
切入角度: 通过dropout注入随机性解决第一个问题，然后适配MATH-Shepherd数据标注框架训练PRM/ORM，最后通过几何分析、轨迹动态和扰动实验深入分析失败原因。
核心idea一句话: 连续推理的inference-time scaling潜力巨大，但连续思维的几何同质性是阻碍奖励模型有效区分的根本瓶颈。

方法详解¶

整体框架¶

三步走：(1) 用dropout采样为COCONUT生成多样推理轨迹；(2) 适配MATH-Shepherd标注框架训练PRM和ORM；(3) 系统分析连续推理空间的几何属性来解释奖励模型失效的原因。

关键设计¶

Dropout采样生成多样轨迹
做什么：在连续推理阶段选择性启用dropout，文本生成阶段关闭，为确定性COCONUT注入可控随机性
核心思路：COCONUT隐状态 \(\mathbf{s}_i = f_\theta(X, \mathbf{s}_{<i})\) 在前向传播中受dropout影响，不同采样产生不同推理路径
设计动机：文本LLM通过token采样获得多样性，但COCONUT推理过程确定性没有token分布可采样，dropout是最自然的替代方案
连续空间的MC标注与奖励模型训练
做什么：适配MATH-Shepherd框架，对每个连续思维向量进行MC标注
核心思路：对每个推理步 \(s_i\)，从该步出发生成N个完成结果，计算硬估计（有任一正确 \(y^{HE}_{s_i}=1\)）和软估计（正确比例 \(y^{SE}_{s_i}\)）
关键限制：连续表示是模型特定的——只有原始COCONUT能解读自己的潜空间，因此PRM/ORM只能以COCONUT自身为backbone
多维度分析连续推理空间
几何属性分析: 用IsoScore★（各向同性）和Hoyer（稀疏性）分析思维向量的高维分布特征
轨迹动态分析: 计算compactness（紧凑度）、curvature（曲率）、local smoothness（局部平滑度）、straightness（直线度）四个指标
扰动分析: 向潜空间注入不同强度的高斯噪声，观察推理性能变化
设计动机：如果正确和错误推理在几何上不可分，奖励模型原则上就无法学到有效的判别特征

损失函数 / 训练策略¶

PRM训练: 联合损失 \(\mathcal{L}_{PRM} = \mathcal{L}_{CE}(y^{HE}, \hat{y}^{HE}) + \mathcal{L}_{MSE}(y^{SE}, \hat{y}^{SE})\)
ORM训练: 交叉熵损失 \(\mathcal{L}_{ORM} = \mathcal{L}_{CE}(r^{OUT}, \hat{r}^{OUT})\)
正负样本1:1平衡，PRM 238k样本，ORM 324k样本，10 epochs，learning rate 1e-4

实验关键数据¶

主实验 - GSM8k上不同重排方法的Best-of-N性能¶

方法	N=1	N=4	N=8	N=16	N=32
Pass@N (理论上界)	31.08	38.67	41.02	42.61	44.43
Confidence	31.08	30.48	29.87	31.39	30.71
Self-Consistency	31.08	31.61	31.24	32.15	32.15
PRM-HE	31.08	32.45	33.06	33.36	32.83
ORM	31.08	32.15	31.46	32.37	31.39
PRM-SE	31.08	32.37	32.52	32.37	33.28

分析实验 - 连续思维的几何属性¶

指标	正确思维	错误思维	差异
IsoScore★ (全集)	0.0134	0.013	可忽略
Hoyer (全集)	0.21±0.01	0.22±0.01	可忽略
Compactness (全集)	19.81±2.53	19.39±2.48	p=0.023, Cohen's d=0.17
Local Smoothness (PRM+)	0.39±0.09	0.48±0.10	p=0.049, Cohen's d=-0.97

关键发现¶

巨大的潜力-收益差距: Pass@32理论上界44.43%，但PRM/ORM最佳仅33.36%（+2.28%），比离散文本空间的同类方法差得多
几何同质性: 正确和错误的连续思维在IsoScore★、Hoyer等几何指标上几乎无差异，t-SNE也显示完全混合
高鲁棒性也是问题: 噪声扰动实验中，低噪声比例（0-0.2）几乎不影响性能；即使完全噪声替换（ratio=1.0），Pass@5仍有12.59%，说明COCONUT的推理并不完全依赖连续思维
Confidence重排无效: 说明COCONUT缺乏有效的概率校准
聚合策略无关紧要: PRM的min/max/mean/last聚合策略差异极小（Table 2），确认问题不在打分方式而在表示本身

亮点与洞察¶

首次系统性研究: 第一个将inference-time scaling应用于连续空间推理的工作，建立了benchmark和分析框架
dropout采样的简洁性: 用训练阶段本就存在的dropout来注入随机性，零额外训练成本
分析深度: 从分类性能→几何属性→轨迹动态→扰动实验四个层面逐步深入，形式严谨
关键insight: 连续推理训练仅优化最终答案准确率，没有引入促使正误推理结构分化的归纳偏置——这是根本原因
建设性方向: 提出对比学习、各向同性约束、轨迹多样性等未来方向

局限性 / 可改进方向¶

仅基于GPT-2 + COCONUT（较小模型），未验证大模型连续推理是否有同样问题
仅在GSM8k上实验，未测试其他推理任务（如代码生成、逻辑推理等）
分析性质为主，诊断了问题但未提出具体的改进训练方法
dropout采样导致N=1时略低于确定性推理（~31% vs ~31.08%），需要更好的多样性注入方案
PRM/ORM仅用COCONUT自身backbone，未探索外部判别模型的可能性
连续推理步数固定为 \(T=6\)（\(3 \times c\), \(c=2\)），未探索不同推理长度的影响
噪声实验中ratio=1.0时仍有12.59%准确率，暗示部分问题根本不需要连续推理即可求解

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统研究连续空间推理的inference-time scaling，研究问题本身就是重要贡献
实验充分度: ⭐⭐⭐⭐ 从多个独立角度分析问题（几何、轨迹、扰动），分析全面深入
写作质量: ⭐⭐⭐⭐ 逻辑链条清晰：发现潜力→尝试利用→分析失败→指明方向
价值: ⭐⭐⭐⭐⭐ 对连续推理的未来发展有奠基性指导意义，明确了训练范式需要改变的方向