PonderLM: Pretraining Language Models to Ponder in Continuous Space¶
会议: ICLR2026
arXiv: 2505.20674
代码: 待确认
领域: self_supervised
关键词: pondering, language model, continuous space, test-time compute, pretraining
一句话总结¶
提出 PonderLM,在预训练阶段引入"沉思"机制——将预测概率分布加权求和为连续嵌入后反复前向传播,无需标注数据或强化学习,使 2.8B 模型在 9 个下游任务上超越 6.9B 模型。
研究背景与动机¶
- 领域现状:提升模型能力的主流方法是扩大参数和数据规模,但面临数据耗尽、缩放饱和、通信开销等瓶颈。推理时缩放(CoT)也有限制:需要标注数据、强化学习,小模型难以受益。
- 现有痛点:CoT 在离散语言空间操作,受限于固定词表,且性能上界受基础预训练模型约束。
- 核心矛盾:需要更多计算来提升性能,但简单增加参数成本太高。
- 本文要解决什么? 在不增加参数的情况下,通过在单个 token 生成步内多次前向传播来提升性能。
- 切入角度:类比人类面对复杂问题会反复沉思,让模型在连续空间中"思考"。
- 核心idea一句话:将预测概率与词嵌入做加权和形成"沉思嵌入",残差加到输入后再次前向传播,重复 \(s\) 步。
方法详解¶
整体框架¶
标准 LM 生成概率 \(\mathbf{P}\) → 加权求和所有词嵌入得到沉思嵌入 \(\mathbf{T} = \mathbf{P}\mathbf{V}\) → 残差连接 \(\mathbf{E}^1 = \mathbf{E}^0 + \mathbf{T}\) → 再次前向传播 → 重复 \(s\) 步。
关键设计¶
- 沉思机制: \(\mathbf{t} = \sum_i p_i \mathbf{e}_i\),连续嵌入保留了所有候选 token 的信息,实现可微端到端训练
- 效率优化: 只用 top-K(K=100)token 的概率计算沉思嵌入,复杂度从 \(\mathcal{O}(n|V|d)\) 降至 \(\mathcal{O}(nKd)\)
- 纯自监督: 不需要标注数据或强化学习,通过标准语言建模预训练即可学会沉思
训练策略¶
使用标准 NTP 损失在大规模语料上预训练,\(s=3\) 步沉思。
实验关键数据¶
主实验¶
| 模型 | 参数量 | 训练数据 | 9任务平均 |
|---|---|---|---|
| Pythia-6.9B | 6.9B | 300B tokens | 基线 |
| PonderPythia-2.8B | 2.8B | 300B tokens | 超越 6.9B |
| TinyLlama-1.1B | 1.1B | 3T tokens | 基线 |
| PonderPythia-1B | 1B | 300B tokens | 匹配 TinyLlama |
关键发现¶
- 2.55B 模型匹配 Pythia-6.9B 的 loss(63% 参数减少)
- 增加沉思步数持续提升性能
- 在 GPT-2、Pythia、LLaMA 三种架构上都有效
亮点与洞察¶
- 引入第三条缩放轴(参数缩放、推理缩放之外的"沉思缩放")
- 连续空间中的思考突破了离散词表限制
- 沉思过程的中间概率分布提供了可解释的推理窗口
局限性 / 可改进方向¶
- 推理开销随沉思步数线性增长
- 与 CoT 的组合效果待探索
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 连续空间沉思机制是全新思路
- 实验充分度: ⭐⭐⭐⭐ 三种架构+9个下游任务
- 写作质量: ⭐⭐⭐⭐ 直觉解释好
- 价值: ⭐⭐⭐⭐⭐ 提出了新的计算缩放范式