Understanding the Emergence of Seemingly Useless Features in Next-Token Predictors¶

会议: ICLR2026
arXiv: 2603.14087
代码: GitHub
领域: llm_nlp
关键词: 特征涌现, 下一token预测, 预缓存, 电路共享, 世界模型, 机制可解释性

一句话总结¶

从梯度信号的角度解释了为什么用下一 token 预测(NTP)训练的 Transformer 会学习到对预测当前下一 token "无用"的特征，提出三种梯度路径分解（直接学习、预缓存、电路共享）并在玩具任务、OthelloGPT 和语言模型中验证。

背景与动机¶

LLM 通常用 NTP 目标训练：学习 $p(x_{t+1}|x_1 \cdots x_t)$
直觉上，模型只需学习对预测下一 token 有用的特征
但大量研究发现 Transformer 学到了远超此需要的丰富表征：抽象特征、世界模型、多步前瞻等
OthelloGPT 甚至学到了棋盘状态表征，尽管预测合法走法不需要知道所有棋子位置
核心问题：NTP 目标的梯度信号从何而来，使得模型学习了这些"无用"特征？

核心问题¶

训练用于 NTP 的 Transformer 如何学习到对预测当前下一 token 无用的特征？梯度信号的哪些组分驱动了这些特征的涌现？

方法详解¶

三种梯度路径分解¶

对残差流 $r_{\theta,i}^k(x)$ 在位置 $i$、层 $k$ 处，损失梯度可分解为三条独立路径：

1. 直接学习(Direct Learning) — 绿色路径

来自位置 $i+1$ 的下一 token 预测损失，经过 $r_{\theta,i}^k(x)$：

\[\nabla_\theta L_{i(\text{direct})}^k = \nabla_\theta L_i - \nabla_\theta L_i^{\text{sg}(k,i)}\]

2. 预缓存(Pre-caching) — 蓝色路径

来自位置 $j > i+1$ 的预测损失，通过注意力机制"回看"位置 $i$ 的内容：

\[\nabla_\theta L_{i(\text{pre-cached})}^k = \nabla_\theta \sum_{j \neq i} \left[L_j - L_j^{\text{sg}(k,i)}\right]\]

3. 电路共享(Circuit Sharing) — 橙色路径

不经过 $r_{\theta,i}^k(x)$ 的路径。由于 Transformer 共享参数，其他位置的梯度信号也会影响计算位置 $i$ 的参数：

\[\nabla_\theta L_{i(\text{shared})}^k = \sum_j \nabla_\theta L_j^{\text{sg}(k,i)}\]

Proposition 3.1：三者构成总梯度的精确分解： $$\nabla_\theta L = \nabla_\theta L_{i(\text{direct})}^k + \nabla_\theta L_{i(\text{pre-cached})}^k + \nabla_\theta L_{i(\text{shared})}^k$$

消融方法¶

消融预缓存：使用 myopic training，阻断不同位置之间的梯度流
消融电路共享：使用 $m$-untied training，位置 $m$ 前后用不同参数
极端情况：myopic + untied = "分裂大脑"，三种路径都被隔离

影响力度量¶

定义 Feature Mismatch： $$R(x|\theta_1, \theta_2, w_i^k) = \frac{1}{2}(\langle w_i^k, r_{\theta_1,i}^k(x)\rangle - \langle w_i^k, r_{\theta_2,i}^k(x)\rangle)^2$$

定义 Influence： $$I_i^k(\theta, x | w_i^k, \theta^*, G) = \frac{d}{d\varepsilon} R(x|\theta + \varepsilon G, \theta^*, w_i^k)\bigg|_{\varepsilon=0}$$

将 $G$ 分别代入三个梯度组分，获得各组分的 integrated influence。

大模型适配：Proposition 5.1¶

对于无法重训练的大模型，通过激活干预近似影响力比值：

\[Q(w) = \frac{\sum_{j>i+1} d_j^{/i}}{d_{i+1}^{/i}} \approx \frac{I_{\text{pre-cached}}}{I_{\text{direct}}}\]

$Q(w)$ 高表示该特征主要由预缓存驱动。

实验关键数据¶

玩具任务：Majority 和 Conditioned Majority¶

训练方式	Majority 特征探针	Conditioned Majority 特征探针
正常训练	高	高
Myopic (无预缓存)	降低	无法学习
Untied (无电路共享)	降低	高
Myopic + Untied	最低	无法学习

Conditioned Majority 需要预缓存才能学习（需要两层注意力交互）
消融两种机制后，NTP-无用特征基本不出现

OthelloGPT¶

梯度组分	NTP-有用特征 95%CI	NTP-无用特征 95%CI
Direct	[2.85, 12.38]	[-4.69, 2.74]
Pre-cached	[-1.99, 0.66]	[0.55, 3.05]
Shared	[4.80, 12.48]	[2.93, 9.91]
Combined	[12.14, 19.05]	[4.42, 10.07]

Direct influence 仅对 NTP-有用特征显著为正，对 NTP-无用特征不显著
Pre-cached 和 Shared influence 对 NTP-无用特征仍为正，解释了为何它们能被学到
解释了 Vafa et al. (2025) 发现的 OthelloGPT 世界模型脆弱性

语言模型 (TinyStories)¶

特征类型	是否需要预缓存	预缓存 influence
POS 标签	否	低
依存标签	否	低
位置特征(故事中位置)	是	高

Myopic 模型 loss 为 3.29±0.02，正常模型为 2.53±0.10（差异巨大）
简单语法不需要预缓存，但连贯文本生成需要

Gemma 2 2B：SAE 特征分析¶

$Q(w)$ 极端高或低的特征主要与编程/形式推理相关
$\sigma_{\text{formal}} = 1.63 \pm 0.03$ vs $\sigma_{\text{not formal}} = 1.23 \pm 0.02$
对高 $Q(w)$ 特征进行 steering 会生成更多代码和标点
预缓存特征与前瞻(look-ahead)呈负相关，支持"面包屑假说"

亮点¶

从发展视角理解特征：不同于传统的功能性可解释性，从梯度信号的发展角度解释特征为何出现
三路径分解的优雅：将总梯度精确分解为三个有明确物理含义的组分
OthelloGPT 世界模型的新解释：NTP-无用棋格的表征来自预缓存和电路共享，而非直接学习
否定了预缓存=前瞻假说：实证表明预缓存特征与前瞻能力呈负相关
跨尺度验证：从玩具任务到 Gemma 2 2B 的一致性发现

局限性 / 可改进方向¶

Attribution 方法依赖重训练模型（对大模型不可行），Proposition 5.1 仅是近似
特征定义限于线性探针方向，非线性特征未被覆盖
仅在 Gemma 2 上进行大模型实验，更多 LLM 的验证待做
Myopic training 同时阻断了正向信息传递和反向梯度流，难以完全解开因果关系
未探讨 RLHF 等后训练阶段对特征涌现的影响

与相关工作的对比¶

方向	本文贡献
Li et al. (2023) OthelloGPT	解释了 NTP-无用特征为何仍可学到
Vafa et al. (2025) 世界模型脆弱性	用 gradient 组分解释了 NTP-有用/无用特征的差距
Wu et al. (2024) 预缓存假说	引入电路共享，否定预缓存=前瞻
Bachmann & Nagarajan (2024) NTP 局限	补充了 NTP 正面能力来源的分析

启发与关联¶

"发展可解释性"(developmental interpretability) 是理解 LLM 的新范式
预缓存机制与 CoT 推理有联系：模型可能在早期位置就为后续推理做准备
电路共享解释了为何共享参数的 Transformer 比位置独立模型更强大
$Q(w)$ 指标可作为实用工具，帮助筛选 SAE 特征中的"规划型"特征

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 从梯度信号角度解释特征涌现，视角全新
实验充分度: ⭐⭐⭐⭐ — 从玩具到大模型的完整链条，但大模型实验有限
写作质量: ⭐⭐⭐⭐⭐ — 逻辑清晰，数学严谨，图表精美
价值: ⭐⭐⭐⭐⭐ — 为理解 LLM 内部表征提供了新的分析框架