跳转至

Beyond Induction Heads: In-Context Meta Learning Induces Multi-Phase Circuit Emergence

会议: ICML 2025
arXiv: 2505.16694
代码: gouki510/In-Context-Meta-Learning
领域: LLM/NLP · 机械可解释性 · In-Context Learning
关键词: In-Context Learning, Induction Head, Multi-Phase Circuit, Meta-Learning, Mechanistic Interpretability

一句话总结

本文通过设计 In-Context Meta-Learning (ICML) 实验环境,揭示了 Transformer 在获得上下文元学习能力的训练过程中,内部电路经历了三个截然不同的阶段性涌现(Bigram → Label Attention → Chunk Example),而非 induction head 研究中观察到的单阶段跃变,从而为理解 ICL 的深层机制提供了新视角。

研究背景与动机

背景

Transformer 语言模型展现出不可思议的 In-Context Learning (ICL) 能力——仅凭上下文中的少量示例就能适应性地完成新任务,无需更新模型参数。此前对 ICL 的机械可解释性研究主要集中在 induction head 上,即识别上下文中 \([A][B] \ldots [A]\) 的重复模式并预测 \([B]\) 的 match-and-copy 机制。Olsson et al. (2022) 发现 induction head 在训练过程中通过一次突然的准确率跃变涌现。

核心挑战

Induction head 仅能解释 ICL 中"从上下文中复制答案"的部分。然而实际 LLM 的 ICL 远不止于此——模型需要从上下文示例中 推断任务本身(如给出"国家→首都"的示例对,推断出这是一个国家-首都映射任务),然后将推断出的任务应用到新的查询上。这种元学习能力如何在训练中获得、由什么样的内部电路实现,此前的研究几乎没有探索。

动机

作者希望回答一个根本性问题:Transformer 如何在训练过程中逐步获得 ICL 的元学习能力? 为此需要超越简单的 copy task,设计一个真正需要任务推断的实验环境,并追踪模型内部电路在训练过程中的动态变化。

方法详解

整体框架:In-Context Meta-Learning (ICML) 实验设置

作者在 Reddy (2023) 的 copy task 基础上,设计了一个名为 In-Context Meta-Learning (ICML) 的实验框架。核心思路是让模型面对 多个任务(不同的 item-label 映射),迫使模型必须从上下文示例中推断当前是哪个任务,而不是简单复制。

输入序列格式为:

\[\underbrace{x_1, \ell_1^{\tau}, x_2, \ell_2^{\tau}, \ldots, x_N, \ell_N^{\tau}}_{\text{examples}}, \underbrace{x_q}_{\text{query}}, \underbrace{?}_{\text{prediction}}\]

其中 \(\tau\) 表示当前任务,每个任务定义了不同的 \((x, \ell)\) 映射关系。查询 \(x_q\) 可能不在上下文示例中出现,因此模型必须推断任务 \(\tau\) 才能正确预测。

数据生成机制

  • 每个 item \(x\) 和 label \(\ell\)\((P+D)\) 维向量表示,其中 \(P=65\) 维为位置编码(one-hot),\(D=63\) 维为内容特征
  • 每个类别 \(k\) 关联一个 \(D\) 维均值向量 \(\mu_k\),元素独立采自 \(\mathcal{N}(0, 1/D)\)
  • 实际 item 向量加入噪声:\(x_i = \frac{\mu_k + \epsilon \eta}{\sqrt{1 + \epsilon^2}}\),其中 \(\epsilon\) 控制类内变异度
  • 默认参数:\(T=3\) 个任务,\(K=64\) 个类别,\(L=32\) 个标签,\(N=4\) 个上下文示例,\(\epsilon=0.1\)\(p_B=0\)(查询不在上下文中出现)

网络结构

采用两层 attention-only Transformer(无 FFN),后接两层 MLP 分类器:

  • 每层有 \(m\) 个注意力头,使用因果掩码
  • 注意力权重计算:\(p_{ij}^{(\mu,h)} = \frac{\exp((K_\mu^{(h)} u_j)^\top (Q_\mu^{(h)} u_i))}{\sum_{k \leq i} \exp((K_\mu^{(h)} u_k)^\top (Q_\mu^{(h)} u_i))}\)
  • Query/Key 维度和 MLP 隐层维度均为 128
  • 使用交叉熵损失,vanilla SGD,学习率 0.01,batch size 128

关键发现:三阶段电路涌现

训练过程中模型经历三个截然不同的阶段,每个阶段涌现出不同的注意力电路:

Phase 1 — Non-Context Circuit (NCC): - 两层均为 Bigram 注意力:查询 token 主要关注自己 - 模型完全忽略上下文,仅依赖权重记忆 - 准确率停滞在 \(\sim 1/T\)(约 30-40%)

Phase 2 — Semi-Context Circuit (SCC): - 第一层:Label Attention——查询关注上下文中的标签 token - 第二层:仍为 Bigram——关注查询自身 - 模型开始利用上下文中的标签信息(但不考虑 item-label 对应关系) - 准确率提升至约 75%

Phase 3 — Full-Context Circuit (FCC): - 第一层:Chunk Example——将 \((x, \ell)\) 对聚合为单个 token(类似 previous token head) - 第二层:Label Attention——关注聚合后的 token - 模型利用完整上下文进行任务推断 - 准确率达到 100%

电路量化指标

作者定义了三个基于注意力图的指标来量化电路涌现:

指标 公式 含义
Bigram \(p_{2N+1, 2N+1}^{\mu,h}\) 查询 token 对自身的注意力
Label Attention \(\sum_{k=1}^{N} p_{2N+1, 2k}^{\mu,h}\) 查询对上下文中所有标签 token 的总注意力
Chunk Example \(\frac{1}{N} \sum_{k=1}^{N} p_{2k, 2k-1}^{\mu,h}\) 标签 token 对对应 item token 的平均注意力

阶段边界通过 \(\Delta \text{Accuracy} = \text{Acc}(t + \Delta t) - \text{Acc}(t) > 0.025\)\(\Delta t = 100\))来判定。

SCC 的理论分析

在简化条件下(\(K=L\),无重复类别,\(T=2\)),作者推导出 SCC 能够提升准确率的理论解释:

当上下文中包含查询的某个候选标签时,该标签显然不是正确答案(因为上下文中的标签属于其他 item),从而将二选一缩减为唯一确定。候选标签出现的概率为:

\[p = 1 - \frac{\binom{K-2}{4}}{\binom{K-1}{4}}\]

因此理论准确率为:

\[\text{Theoretical Accuracy} = p \cdot 1 + (1-p) \cdot 0.5\]

损失函数

使用标准交叉熵损失训练分类任务:

\[\mathcal{L} = -\sum_{i=1}^{L} y_i \log \hat{y}_i\]

其中 \(y_i\) 为 one-hot 真实标签,\(\hat{y}_i\) 为模型对标签 \(i\) 的预测概率。

实验关键数据

主实验:三阶段准确率变化

阶段 电路类型 层1注意力 层2注意力 准确率(T=3)
Phase 1 NCC Bigram Bigram 30-40%
Phase 2 SCC Label Attention Bigram ~75%
Phase 3 FCC Chunk Example Label Attention 100%

消融实验:数据属性对电路涌现的影响

参数变化 效果
\(T=1\) 退化为 induction head,单阶段跃变
\(T \geq 2\) 稳定出现三阶段
\(K\) 小(32) 跳过 Phase 1,直接进入 Phase 2
\(K\) 大(128, 256) 跳过 Phase 2,从 Phase 1 直接到 Phase 3
\(\epsilon\) 增大 跳过 Phase 2;\(\epsilon=1\) 时还跳过 Phase 1
\(\alpha\) 增大(类别偏置) 跳过 Phase 1 或 Phase 2
\(\beta\) 增大(任务偏置) 平均趋势变化不大,但各任务准确率差异显著

SCC 理论验证

\(K=\{8, 16, 32\}\) 条件下,理论准确率与实验准确率高度吻合,验证了 SCC 通过标签排除机制提升性能的假设。

随机标签鲁棒性(RLA)

训练准确率在 Phase 2 跃升时,Random-Label Accuracy (RLA) 也同步上升,表明 SCC 仅依赖标签集合信息而非 item-label 配对关系。这与 Min et al. (2022b) 发现的"随机标签下 ICL 仍有效"的现象一致。

多头注意力实验

设置 现象
单头 准确率呈现明显的三阶段跃变
双头 不同头并行探索不同电路(Head 1 → NCC,Head 2 → FCC),准确率平滑提升
隐藏电路涌现 即使准确率曲线平滑,电路指标仍在约第 30,000 步出现 SCC 类突变

GPT2-XL 实际验证

在 SST2 情感分类 2-shot 任务上,GPT2-XL (48层) 展现出与简化模型一致的层级模式: - 早期层:Chunk Example 指标高(将 review-label 对聚合) - 中后期层:Label Attention 指标高(利用标签信息预测)

亮点与洞察

  1. 多阶段涌现的发现:不同于 induction head 的单阶段跃变,元学习能力的获得需要三个电路阶段依次涌现(NCC → SCC → FCC),揭示了 ICL 能力获取的复杂性
  2. SCC 解释随机标签之谜:Semi-Context Circuit 仅关注标签集合而忽略 item-label 对应关系,为 Min et al. (2022b) 的"随机标签下 ICL 仍有效"提供了电路层面的解释
  3. 隐藏电路涌现:多头注意力使得准确率曲线变得平滑,但电路指标揭示内部仍存在突变——这暗示 LLM 训练中即使 loss 平滑下降,内部电路也可能发生剧烈变化
  4. 从玩具模型到 LLM 的桥梁:在 GPT2-XL 上验证了相似的层级电路模式,增强了研究结论的实用价值
  5. 统一了 induction head:当 \(T=1, p_B=1\) 时 ICML 退化为 induction head 设置,说明 induction head 是更一般性元学习电路的特例

局限性

  1. 模型规模极小:主要实验基于 2 层 attention-only Transformer,远小于实际 LLM,结论的可扩展性需进一步验证
  2. 合成数据:使用简化的分类任务,与自然语言 ICL 的任务复杂性存在较大差距
  3. 无 FFN 层:attention-only 架构忽略了 FFN 在 ICL 中可能扮演的角色(如存储记忆性知识)
  4. GPT2-XL 验证有限:仅在 SST2 这一个 NLP 任务上验证了注意力模式的一致性,未做更广泛的任务和模型覆盖
  5. 三阶段模式的普遍性存疑:在不同的数据分布参数下,某些阶段可能被跳过,说明三阶段并非普适规律
  6. 缺乏因果干预:电路分析主要基于注意力模式的相关性观察,未使用 activation patching 等因果方法严格验证电路功能

相关工作

  • In-Context Learning 理论:Von Oswald et al. (2023) 证明 Transformer 可通过元梯度下降实现上下文线性回归;Xie et al. (2021) 将 ICL 解释为隐式贝叶斯推断
  • Induction Head:Olsson et al. (2022) 发现 induction head 是 ICL 的关键电路;Singh et al. (2024) 研究了多头注意力下 induction head 的涌现条件
  • 电路发现与可解释性:Wang et al. (2022) 发现了 GPT-2 中间接宾语识别的电路;Conmy et al. (2023) 探索了自动化电路发现
  • 随机标签与 ICL:Min et al. (2022b) 发现 ICL 在随机标签下仍保持性能;Chan et al. (2022) 揭示了数据分布性质对 ICL 涌现的影响
  • 任务向量:Hendel et al. (2023) 和 Todd et al. (2024) 发现 LLM 内部将任务表示为向量形式
  • Grokking 与阶段性学习:Nanda et al. (2023)、Furuta et al. (2024) 研究了 Transformer 中 grokking 现象与内部电路的关系

评分

维度 评分
新颖性 ⭐⭐⭐⭐
严谨性 ⭐⭐⭐⭐
实用性 ⭐⭐⭐
清晰度 ⭐⭐⭐⭐⭐
综合 ⭐⭐⭐⭐

本文在机械可解释性领域做出了显著贡献——将 induction head 研究扩展到元学习场景,发现了多阶段电路涌现的现象,并为 ICL 中多个已知"谜题"(如随机标签鲁棒性)提供了电路层面的解释。实验设计精巧、分析清晰,理论推导与实验结果吻合良好。主要不足是模型规模过小,但作者在 GPT2-XL 上做了初步的跨模型验证,展示了从玩具实验到实际 LLM 的桥梁潜力。

相关论文