Internal Planning in Language Models: Characterizing Horizon and Branch Awareness¶
会议: ICLR 2026
arXiv: 2509.25260
代码: 有(附补充材料)
领域: 模型压缩
关键词: 语言模型规划, 互信息, VQ-VAE, 前瞻性, 分支意识
一句话总结¶
提出基于VQ-VAE的信息论框架来分析语言模型内部的规划行为,发现规划视野是任务依赖的、模型隐式保留未选择的正确路径信息、下一token决策主要依赖最近的计算。
研究背景与动机¶
LLM展现出令人惊叹的能力,但其训练目标——下一token预测——似乎只关注局部,与"规划"的前瞻性本质矛盾。这引发核心问题:LM在多大程度上是"前瞻"和"分支感知"的?
前瞻性(horizon awareness):好的规划者在当前决策中已考虑长期目标,类似模型预测控制(MPC)。分支感知(branch awareness):好的规划者在做决策前保持多个可能的未来"活着",类似Tree-of-Thoughts。
现有分析方法存在局限:(1) 电路发现需要大量手工工程;(2) 线性探针可能混淆探针自身学到的表征和模型实际编码的信息(探针交叉感染问题)。需要一种自动化、无交叉感染且可扩展的分析方法。
核心idea:用VQ-VAE将LM的高维隐状态压缩为离散码,然后直接计算离散码之间的互信息(MI)来度量内部计算之间的信息共享关系。
方法详解¶
整体框架¶
三步流程:Step 1 训练VQ-VAE将隐状态块压缩为离散码 \(Z_\mathcal{S}\);Step 2 用训练好的编码器在数据集上获取所有离散码的联合分布;Step 3 计算互信息 \(I(Z_A; Z_B)\) 和归一化互信息 nMI 来分析不同计算块之间的信息关系。
关键设计¶
-
VQ-VAE 隐状态压缩:
- 功能:将变长的高维隐状态集合 \(G_\mathcal{S} = \{h_t^\ell | (\ell,t) \in \mathcal{S}\}\) 映射为离散码 \(Z_\mathcal{S} \in [K]\)
- 核心思路:Transformer编码器将变长输入映射为固定维度潜向量 \(r_\mathcal{S}\),然后在codebook \(\{e_k\}_{k=1}^K\) 中找最近邻量化为离散码 \(k^* = \arg\min_k \|r_\mathcal{S} - e_k\|_2^2\)
- 训练目标:\(\mathcal{L} = \mathcal{L}_{\text{rec}} + \lambda_q \mathcal{L}_{\text{vq}} + \lambda_{\text{cos}} \mathcal{L}_{\text{cos}} + \lambda_{\text{ent}} \mathcal{L}_{\text{ent}}\)。额外加入余弦相似度惩罚和熵正则化,确保码本多样且充分利用
- 设计动机:离散码既保留了区分不同计算的关键差异,又过滤了细粒度冗余细节,使MI估计更稳定
-
规划视野分析 (Horizon of the Plan):
- 功能:量化前缀计算包含多少关于未来token的信息
- 核心思路:对比前缀所有隐状态块 \(H = \{h_t^\ell | t=1,...,T; \ell=1,...,L-1\}\) 的摘要码 \(Z_{1:T}^{1:L-1}\) 与第 \(\tau\) 个生成token的最后层隐状态码 \(Z_{T+\tau}^L\) 之间的 nMI。若 nMI 随 \(\tau\) 衰减缓慢,说明前缀编码了长视野的信息
- 设计动机:MI比探针更robust——不引入额外模型的表达能力,直接度量信息共享
-
分支意识分析 (Branches in the Plan):
- 功能:检验模型生成正确答案时是否也编码了替代正确路径的信息
- 核心思路:在路径寻找(PF)任务中设计每个样本有2条正确路径和1条诱饵路径(三者不共享节点)。比较前缀摘要码与替代正确路径码的MI vs 与诱饵路径码的MI,比值 \(\mathcal{I}(Z_H; Z_{\text{alt}}) / \mathcal{I}(Z_H; Z_{\text{decoy}})\) >1 表明分支意识
- 设计动机:三条路径不共享节点排除了trivial重叠的解释
实验设置¶
使用GPT-3 Small架构(带RoPE),在三类数据上分析:(1)上下文无关文法(CFG)——局部句法规则;(2)路径寻找(PF)——需多步推理的图任务;(3)自然语言(OpenWebText)。比较NTP与MTP训练目标的差异。
实验关键数据¶
规划视野(nMI衰减模式)¶
| 任务 | nMI衰减速度 | 含义 |
|---|---|---|
| CFG(上下文无关文法) | 快速衰减,\(\tau\)=10时降至初始值1/5 | 短视野,局部规划 |
| PF-Short(4节点路径) | 在\(\tau\)>1处nMI上升 | 非近视,前缀编码后续节点 |
| PF-Long(6节点路径) | nMI在中间节点保持高值 | 长视野规划 |
分支意识¶
| 模型 | PF-Short MI比值 | PF-Short精度 | PF-Long MI比值 | PF-Long精度 |
|---|---|---|---|---|
| NTP | 7.60±0.78 | 0.92 | 1.45±0.01 | 0.60 |
| MTP | 6.29±0.17 | 0.88 | 1.82±0.27 | 0.85 |
关键发现¶
- 规划视野是任务依赖的:CFG上nMI快速衰减(短期规划),PF上保持高值甚至上升(长期规划)
- PF任务中nMI在第二个中间节点处高于第一个——可能暗示模型"从目标反推"的策略
- 分支意识真实存在:MI比值远大于1(PF-Short上高达7.6),模型确实保留了未选择的正确路径信息
- MTP训练略微减少短视行为,但NTP和MTP的差异并不显著
- 下一token决策主要依赖高层和最近的计算块(近因效应)
亮点与洞察¶
- VQ-VAE+MI的分析框架通用性强——避免了探针的交叉感染问题和电路发现的手工工程
- "模型内部保留替代路径信息"这一发现对理解LM的鲁棒性具有重要意义
- nMI在PF任务中对第二节点高于第一节点,暗示了隐式的"逆向规划",与人类解题策略吻合
局限与展望¶
- VQ-VAE的压缩不可避免地丢失信息,MI估计的绝对值不可靠(作者也承认只分析相对趋势)
- 实验基于GPT-3 Small(约125M参数),在更大模型上的规划行为可能不同
- 对自然语言(OpenWebText)仅做了计算历史信息的诊断而非前瞻/分支分析
- NTP/MTP的差异不一致,可能与模型规模有关
相关工作与启发¶
- vs 线性探针: 探针引入额外表达能力导致结果混淆,VQ-VAE+MI方法免受此影响
- vs 电路发现: 电路发现需大量手工工程且难以规模化,本框架自动化且通用
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ VQ-VAE+MI分析范式全新,三个分析维度设计精巧
- 实验充分度: ⭐⭐⭐⭐ 三类任务覆盖全面,但模型规模较小
- 写作质量: ⭐⭐⭐⭐ 框架严谨,公式清晰,附录非常详尽
- 价值: ⭐⭐⭐⭐ 为LM可解释性提供了新工具,但实际应用场景有限
相关论文¶
- [ICLR 2026] The Reasoning Trap — Logical Reasoning as a Mechanistic Pathway to Situational Awareness
- [ICLR 2026] Position: The Reasoning Trap — Logical Reasoning as a Mechanistic Pathway to Advanced AI Self-Awareness
- [ICLR 2026] Beyond Linear Probes: Dynamic Safety Monitoring for Language Models
- [NeurIPS 2025] ConceptScope: Characterizing Dataset Bias via Disentangled Visual Concepts
- [ICLR 2026] Universal Properties of Activation Sparsity in Modern Large Language Models