跳转至

Circuit Stability Characterizes Language Model Generalization

会议: ACL 2025
arXiv: 2505.24731
代码: github
领域: LLM/NLP
关键词: 电路稳定性, 机制可解释性, 泛化性, 软电路, 持久同调

一句话总结

本文提出"电路稳定性"作为评估语言模型泛化能力的新方法,通过数学形式化定义软电路和电路等价性,在算术推理、布尔表达式和体育理解三个案例研究中证明电路稳定性可以预测和刻画泛化行为。

研究背景与动机

评估语言模型的能力面临两大困难:(1) 现有基准测试快速饱和;(2) 创建更具挑战性的数据集需要大量人力。虽然存在针对特定能力的评估方法(如长上下文召回的needle-in-the-haystack),但确定哪些能力值得评估本身就是一个非平凡的问题。

作者提出了三个核心洞察来应对:

电路视角:不再逐一测试输入输出对,而是提取和分析模型的电路(推理过程的子图),电路可以应用于无限类的样本

简化假设:不需要预先指定感兴趣的技能,而是假设一个学到的技能/电路只有在被模型一致性地应用时才有用

连续松弛:不追求提取困难的硬电路(离散子图),而是引入软电路(连续映射),保留丰富的结构信息同时便于计算

方法详解

整体框架

本文将Transformer的计算图中的每条边赋予一个连续的重要性分数(软电路),然后通过比较不同子任务上软电路之间的相似性来衡量电路稳定性。核心概念链为:任务 → 子任务分区 → 软电路 → 电路稳定性/等价性。

关键设计

  1. 任务与子任务定义(Definition 1-2):

    • 任务定义为 X×Y 上的分布 D
    • 通过对 X×Y 进行有意义的分区来得到子任务
    • 例如两位数加法可按操作数位数分区:子任务(o1,o2)表示第一个操作数o1位、第二个操作数o2位
  2. 软电路定义(Definition 3):

    • 传统硬电路:c: E^M → {0,1}(二值),搜索是NP难的组合优化问题
    • 软电路:c: E^M → R(连续),c(e)表示消融边e后性能度量L的期望变化
    • c(e) = E_{(x,y)~D}[L(M_{e}(x), y) - L(M(x), y)]
    • 只要L良定义,c总是存在的,避免了硬电路的离散搜索问题
  3. ε-电路稳定性(Definition 4):

    • 对于模型M、任务分布D和分区集合P,如果对所有分区S∈P,随机抽取两个子任务s, s'的软电路相似度的期望超过ε,则模型是ε-电路稳定的
    • 相似度K使用Spearman秩相关系数ρ
    • 直觉:稳定的模型在不同子任务上使用一致的推理过程
  4. α-电路等价性(Definition 5):

    • 两个子任务的软电路cs, cs'是α-等价的,当且仅当K(cs, cs') ≥ α
    • 用于识别模型在哪些子任务上使用相似的电路(聚类分析)

损失函数 / 训练策略

本文是一个分析框架而非训练方法。电路发现使用next-token patching度量,通过noisy-to-clean patching实现边消融。主要计算开销在于对每个子任务进行电路发现(约需2次前向+1次反向传播)。

实验关键数据

主实验

Case Study 1: 算术推理(gemma-2-2b, 79k电路边)

在两位数加法任务上按操作数位数(o1,o2)分区得64个子任务:

分析 发现
α=0.6等价聚类 形成5个明确的电路族:等位数、一位之差、首操作数重、个位数、尾操作数重
α=0.4 仅一个聚类(共享核心算术组件)
交换律违反 首操作数重和尾操作数重的电路族在α=0.53时即分离
性能差异 (o1,o2)和(o2,o1)性能差异可达20%+,与电路不等价一致
结合律违反 相邻子任务如(6,6)vs(6,7)属于不同电路族

Case Study 2: 布尔表达式(phi-1.5, 128k电路组件)

子任务 括号内稳定性 无括号稳定性 跨括号稳定性 性能变化
not 显著不同* 加括号后性能降40%
not+and 显著不同* 性能稳定
not+and+or 显著不同* 性能稳定

not子任务的电路不稳定与性能下降一致(模型不理解结合律),而not+and和not+and+or的不稳定是"预期的"(因为加括号改变运算顺序)。

Case Study 3: 体育理解(Chain-of-Thought)

模型 Few-shot准确率 CoT准确率 Few-shot电路稳定性 CoT电路稳定性
Llama-3.1-8b ~75% ~88% ~0.55 ~0.75
Gemma-2-9b ~80% ~93% ~0.60 ~0.80

CoT显著提升了电路稳定性(p<0.05),支持CoT通过促进子任务分解和电路组件复用来改善性能的假说。

消融实验

配置 关键指标 说明
α从0→1变化 聚类数单调递增 80%的电路族在α∈[0.58,0.79]间涌现
t-SNE可视化 电路族形成清晰分离的群组 验证α=0.6聚类非特定α的伪影
硬电路对比 同族子任务共享大量组件 部分硬电路互为子电路关系

关键发现

  1. 电路不稳定预测泛化失败:算术任务中电路族的分离与模型在交换律和结合律上的泛化失败一致
  2. 电路稳定性不总是越高越好:布尔表达式中,加括号改变运算语义时的电路不稳定反而是正确行为
  3. CoT可诱导电路稳定性:链式思维提示显著提升了稳定性,支持CoT促进组件复用的机制性解释
  4. 关键转变阈值:α=0.6处电路族数量爆发性增长,揭示了模型内部推理机制的分界线

亮点与洞察

  1. 数学严谨性突出:从定义到实验层层递进,软电路、ε-稳定性、α-等价性的形式化定义精确优雅
  2. 连续松弛的务实选择:避免了硬电路搜索的NP难问题,同时保留了丰富的结构信息
  3. Occam剃刀原则的隐式引入:如果不同子任务使用不同电路,意味着更长的最小描述长度,暗示更差的泛化
  4. 方法的通用性:理论框架与模态和架构无关,可扩展到非Transformer模型
  5. 可操作性:电路稳定性不仅是诊断工具,还指出了改进方向(如CoT诱导稳定性,对齐训练中的因果对齐)

局限与展望

  1. 案例研究较为有限,仅覆盖三个任务和少量模型(gemma-2-2b, phi-1.5, Llama-3.1-8b, Gemma-2-9b)
  2. 分区构建依赖先验知识,对于复杂任务可能难以确定有意义的分区
  3. 电路抽象的粒度选择(MLP层 vs 注意力头 vs 更细粒度)可能影响结论
  4. Spearman ρ作为相似度度量K的选择是否最优未经理论分析
  5. 体育理解任务中使用随机分区、并非真正意义上的子任务

相关工作与启发

本文与机制可解释性(Olah et al., 2020)、电路发现(Conmy et al., 2023)、技能组合(Arora and Goyal, 2023)等方向密切相关。相比现有的ad hoc电路解释工作,本文提供了一个通用的数学框架来比较和量化电路的跨任务一致性。该思路可以延伸到分析RLHF对齐对电路的影响、不同训练阶段的电路演化等方向。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 电路稳定性概念首创,数学框架优雅,观察独到
  • 实验充分度: ⭐⭐⭐ 案例研究有力但数量有限,模型覆盖范围不足
  • 写作质量: ⭐⭐⭐⭐⭐ 数学定义精确,案例分析深入,论证逻辑清晰
  • 价值: ⭐⭐⭐⭐ 提供了理解LLM泛化机制的新视角,具有重要的理论启发价值

相关论文