Understanding the Emergence of Seemingly Useless Features in Next-Token Predictors¶

会议: ICLR 2026
arXiv: 2603.14087
代码: https://github.com/Markfryazino/useless-features-iclr-code
领域: LLM/NLP
关键词: 下一token预测, 特征涌现, pre-caching, circuit sharing, 机械可解释性

一句话总结¶

通过将训练梯度信号分解为 direct、pre-cached 和 circuit sharing 三种成分，解释了为什么 NTP 训练的 Transformer 会学到对预测当前下一token"无用"的特征，并在 OthelloGPT、小型语言模型和预训练 LLM（Gemma 2）上验证了这一框架的解释力。

研究背景与动机¶

领域现状：LLM 通过 NTP（下一 token 预测）目标训练，即学习 \(p(x_{t+1}|x_1 \cdots x_t)\)。直觉上模型应该只学习对预测下一 token 有用的特征。部分合成任务的研究也确认了这一点——NTP 训练确实只学到即时有用的特征。
现有痛点：但大量实证发现 LLM 学到了远超即时 NTP 所需的丰富特征——包括抽象输入特征重建、"世界模型"（如 OthelloGPT 编码的棋盘状态）、以及多步前瞻预测能力。为什么 NTP 目标能驱动这些"看似无用"特征的涌现？已有的可解释性研究主要从目的论视角（特征在成品模型中的算法角色）分析，未探究训练过程中的梯度信号来源。
核心矛盾：NTP 目标只提供关于"下一个 token"的监督信号，但模型学到了关于"全局状态"和"未来 token"的特征。梯度信号是如何"穿越"只优化即时预测的目标函数，驱动这些跨位置特征的学习的？
本文要解决什么？ 从梯度信号的信息流视角解释 NTP-useless 特征的涌现机制。具体地：(a) 梯度信号通过什么路径到达参数？(b) 哪些路径负责学习"无用"特征？(c) 能否量化每种机制的贡献？
切入角度：利用因果遮蔽 Transformer 的计算图结构，将梯度信号分解为三种独立路径，发展干预（消融机制观察影响）和归因（量化每种机制的影响力）两种分析方法。
核心idea一句话：NTP-useless 特征通过 pre-caching（未来位置的损失信号通过注意力回传）和 circuit sharing（参数共享导致跨位置特征迁移）两种机制从 NTP 目标中涌现。

方法详解¶

整体框架¶

对 Transformer 计算图中的信息流进行三分类分解。固定某位置 \(i\) 和层 \(k\) 的残差流 \(r_{\theta,i}^k(x)\)，所有梯度路径被分为：(1) Direct：经过 \(r_{\theta,i}^k\) 且到 \(\hat{x}_{i+1}\)（即时 NTP 损失）的路径；(2) Pre-cached：经过 \(r_{\theta,i}^k\) 但到 \(\hat{x}_j\)（\(j > i+1\)，未来位置损失）的路径；(3) Shared：不经过 \(r_{\theta,i}^k\) 的路径（通过参数共享间接影响）。三者构成梯度的完备分解（Proposition 3.1）。

关键设计¶

梯度三分解（Proposition 3.1）:
做什么：将总梯度 \(\nabla_\theta L\) 精确分解为 direct + pre-cached + shared 三个独立成分
核心思路：通过 stop-gradient 操作定义每个成分。Direct：\(\nabla_\theta L_i - \nabla_\theta L_i^{sg(k,i)}\)；Pre-cached：\(\nabla_\theta \sum_{j \neq i} [L_j - L_j^{sg(k,i)}]\)；Shared：\(\sum_j \nabla_\theta L_j^{sg(k,i)}\)。三者之和恰好等于 \(\nabla_\theta L\)
设计动机：Direct 成分只能驱动 NTP-useful 特征的学习（因为只和即时预测相关），而 pre-cached 和 shared 是"无用"特征涌现的潜在来源
干预方法：Myopic Training 和 m-Untied Training:
做什么：通过消融 pre-caching 或 circuit sharing 观察其缺失的影响
核心思路：Myopic training（Wu et al. 2024 提出）阻止跨位置的梯度传播——在 K、V 矩阵处切断梯度，使位置 \(i\) 不被激励计算对未来位置有用的特征。m-Untied training（本文提出）使用两套独立参数分别处理位置 \(m\) 前后的序列，阻断 circuit sharing
设计动机：Pre-caching 增加了表达力（使多层注意力的复杂构造成为可能），circuit sharing 实现了跨位置特征迁移（在某位置 NTP-useful 的特征通过共享参数被编码在另一位置）
归因方法：Feature Mismatch Influence:
做什么：量化训练过程中每种梯度成分对特征涌现的具体贡献
核心思路：定义 feature mismatch \(R(x|\theta_1, \theta_2, w_i^k) = \frac{1}{2}(\langle w_i^k, r_{\theta_1,i}^k(x) \rangle - \langle w_i^k, r_{\theta_2,i}^k(x) \rangle)^2\)，然后定义 influence \(I_i^k(\theta, x | w_i^k, \theta^*, G) = \frac{d}{d\varepsilon} R(x|\theta + \varepsilon G, \theta^*, w_i^k)|_{\varepsilon=0}\)，其中 \(G\) 是某个梯度成分。对 Adam 优化器进行调整：为三个成分维护独立的动量，确保成分步长之和等于实际优化器步长
设计动机：仅消融（干预）无法区分某个机制"是否有必要"和"实际贡献了多少"。归因方法通过积分每步的 influence 给出每种机制的定量贡献
大模型推断：Intervention-based Influence Ratio \(Q(w)\):
做什么：在无法重训的大模型上估计 pre-cached vs direct 的影响比
核心思路：Proposition 5.1 证明通过在训练后模型上做激活干预（ablation），计算 \(Q(w) = \frac{\sum_{j>i+1} d_j^{/i}}{d_{i+1}^{/i}}\)（干预后未来位置 KL 散度之和 / 即时位置 KL 散度），可以近似 pre-cached 与 direct influence 的比值
设计动机：重训大模型太昂贵，但只需访问最终 checkpoint 也能通过干预实验推断特征的成因

损失函数 / 训练策略¶

使用标准 NTP 交叉熵损失。Myopic 和 untied 变体通过 stop-gradient 修改梯度传播路径而非损失函数。

实验关键数据¶

主实验¶

OthelloGPT 中 NTP-useful vs NTP-useless 特征的影响力分析（95% 置信区间）：

梯度成分	NTP-useful 特征	NTP-useless 特征	含义
Direct	[2.85, 12.38]	[-4.69, 2.74]	Direct 只推动 useful 特征
Pre-cached	[-1.99, 0.66]	[0.55, 3.05]	Pre-cached 推动 useless 特征
Shared	[4.80, 12.48]	[2.93, 9.91]	Shared 对两者都有贡献
Combined	[12.14, 19.05]	[4.42, 10.07]	Useful 被学得更好

Direct 对 NTP-useless 特征的影响与零无显著差异，而 pre-cached 和 shared 对 NTP-useless 特征有正向贡献——这精确解释了 OthelloGPT "世界模型"的脆弱性来源。

消融实验¶

Toy 任务中不同训练模式对 NTP-useless 特征表征质量的影响：

训练模式	Majority "多数"	Conditioned Majority "前一token"	说明
标准训练	高探测准确率	高探测准确率	三种机制全开
Myopic（无 pre-cache）	下降	大幅下降	阻断 pre-caching
m-Untied（无 sharing）	下降	下降	阻断 circuit sharing
Myopic + Untied	最差	完全失败	无法学习 NTP-useless 特征

Conditioned Majority 需要类似 induction head 的两层注意力构造，myopic 训练完全阻止了这种电路的发展。

关键发现¶

语法特征主要由 direct 驱动：小型语言模型中 POS 标签和依赖标签的 pre-cached influence 远低于 direct influence，说明简单语法可以不依赖 pre-caching 学习
Pre-caching 对连贯文本生成不可或缺：myopic 模型的损失（3.29）远高于标准模型（2.53），说明 pre-caching 对复杂语言建模至关重要
Gemma 2 的 \(Q(w)\) 极端值与形式推理相关：SAE 特征中 \(Q(w)\) 极高或极低的特征集中在代码和形式化领域。Pre-caching 对需要模拟形式计算装置（如 AST 解析）的任务尤为重要
Pre-caching ≠ Look-ahead：\(Q(w)\) 与 look-ahead 预测器的特征方向相关性为负——pre-cached 特征对前瞻预测的贡献反而更小。这支持了 "breadcrumbs" 假说：前瞻源于不同位置需要相似特征，而非显式规划

亮点与洞察¶

从"静态功能"到"发展过程"的视角转换：传统可解释性问"这个特征在做什么"，本文问"这个特征是怎么被训练出来的"。这种发展视角与神经科学中功能 vs 发育的区分类似，为理解 LLM 的内部机制提供了全新工具
三分解的普适性：direct/pre-cached/shared 分解基于因果遮蔽 Transformer 的计算图结构，适用于所有 autoregressive model。以此为骨架可以分析任何特征的成因
OthelloGPT 世界模型脆弱性的因果解释：之前只知道"世界模型脆弱"，现在知道"因为 NTP-useless 的棋盘格子只有 pre-cached 和 shared 信号，缺乏 direct 信号"。这是第一个给出统计上显著的因果归因

局限性 / 可改进方向¶

归因方法计算成本高：需要完整重训一次模型并在每步计算三个梯度成分，对大模型不可行
\(Q(w)\) 指标只是近似：只在训练后模型的局部区域有效，不代表整个训练轨迹的积分影响
Toy 任务与真实 LLM 的差距：主要实验在小型模型上完成，大模型分析仅限于 \(Q(w)\) 这一间接指标
可改进方向：发展更高效的归因方法（如只需中间 checkpoint 而非完整重训）；利用梯度分解发现未知的可解释特征（如只被 pre-cached 更新产生的特征子空间）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 提出了理解 Transformer 特征涌现的全新框架（梯度三分解 + 归因方法），视角独特且有深度
实验充分度: ⭐⭐⭐⭐ 从 toy 到 Othello 到小型 LM 到 Gemma 2 的渐进验证层次清晰，但大模型分析受限于间接指标
写作质量: ⭐⭐⭐⭐⭐ 叙事从直觉到形式化到实验的逻辑链极为流畅，概念定义精准
价值: ⭐⭐⭐⭐⭐ 对理解 NTP 训练目标如何产生"超预期"能力有基础性贡献，framework 可广泛应用于 LLM 可解释性研究