Reasoning Circuits in Language Models: A Mechanistic Interpretation of Syllogistic Inference¶
会议: ACL 2025
arXiv: 2408.08590
代码: https://github.com/neuro-symbolic-ai/Mechanistic-Interpretation-Syllogism (有)
领域: LLM可解释性 / 逻辑推理
关键词: 机械可解释性, 三段论推理, 注意力电路, 激活补丁, 中间项抑制
一句话总结¶
用机械可解释性技术(激活补丁 + Logit Lens + 电路消融)发现语言模型中实现三段论推理的完整电路:三阶段机制——长归纳偏差→中间项抑制(h11.10)→传递项移动,该电路在符号输入上既充分又必要,可迁移到自然语言输入,且跨 GPT-2/Pythia/LLaMA/Qwen 四种架构存在兼容模式。
研究背景与动机¶
- 领域现状:LLM 展现出推理能力,机械可解释性已成功分析了加法电路(Stolfo et al. 2023)、缩写预测(García-Carrasco et al. 2024)、大小比较(Hanna et al. 2024)等简单电路,但对逻辑推理电路的机械化分析几乎空白。
- 现有痛点:
- 不清楚 LLM 的推理是真正的逻辑规则应用还是训练数据中的表面模式复用——这是持续的争论(Talmor et al. 2020, Wu et al. 2024)
- LLM 在形式逻辑上表现不一致——对与常识一致的三段论准确率高,对与常识矛盾的低(信念偏差 belief bias)
- 之前的可解释性工作聚焦于事实关联定位(Meng et al. 2022),未进入逻辑推理领域
- 核心矛盾:如果 LLM 真正学会了推理规则,应该在符号输入上也能正确推理(内容无关性);但信念偏差的存在表明世界知识在"污染"推理过程。电路级分析可以精确定位这种污染机制。
- 本文要解决什么:(1) LLM 内部是否存在内容无关的三段论推理电路?(2) 信念偏差是如何在电路层面体现的?(3) 发现的电路是否跨三段论格式、模型大小和架构泛化?
- 切入角度:选择 AAA-1(Barbara)三段论——最常见的日常语言推理形式,且具有非条件有效性(结论的有效性独立于前提的真值),可以严格区分推理机制和知识表示。
- 核心idea一句话:用符号化三段论 + 激活补丁定位推理电路,发现一个基于"中间项抑制"的内部纠错机制。
方法详解¶
整体框架¶
三阶段方法论:(1) 定义三段论补全任务("All A are B. All B are C. Therefore, all A are ?",正确答案 C,干扰项 B),用 logit 差 \(\delta(p,m) = \text{logit}(p) - \text{logit}(m)\) 衡量推理成功;(2) 在纯符号输入上通过两种因果干预方法发现电路;(3) 在自然语言输入上评估电路的迁移性和信念偏差。
关键设计¶
- 三段论补全任务设计:
- 做什么:将三段论形式化为语言模型补全任务——移除结论的最后一个词(谓词项 \(p\)),比较模型对 \(p\) 和中间项 \(m\) 的概率
- 核心思路:如果 \(P(p|[\mathcal{P}_1;\mathcal{P}_2;\mathcal{C}\setminus\{p\}]) > P(m|[\mathcal{P}_1;\mathcal{P}_2;\mathcal{C}\setminus\{p\}])\) 则推理成功
-
设计动机:使用 logit 差而非准确率,可以连续地衡量模型对正确答案的置信度。构建三种数据集:符号(随机大写字母)、信念一致(真前提,如"All men are mortal")、信念不一致(假前提,如"All pilots are blond")
-
两种因果干预方法:
- 中间项腐蚀:将第二前提的中间项 \(m_2\) 替换为新符号 \(m_2'\)——打破传递性,定位参与传递推理的组件。核心假设:如果某个注意力头参与了传递推理,腐蚀中间项后该头的激活补丁应显示高恢复分数
-
全项腐蚀:替换所有项 \((s,m_1,m_2,p) \to (s',m_1',m_2',p')\) 但保持答案不变——追踪特定 token 信息如何流向最后位置,定位 mover head
-
三阶段推理电路发现(GPT-2 Medium):
- (1) 长归纳偏差(Long Induction):早期层的 negative mover heads(h9.9, h11.1, h12.1)表现出类似归纳头的行为,强烈关注 \([m_1]\) 位置——将第一前提的信息直接复制到最后位置,导致模型偏向输出中间项 B 而非正确答案 C
- (2) 中间项抑制(Suppression):关键发现——h11.10 从 \([m_2]\) 位置读取中间项信息,然后在 \([p]\) 位置写入抑制信号。Logit Lens 分析其 OV 矩阵显示清晰的负对角线模式——当关注某个 token 时,强烈抑制该 token 的 logit。平均注意力权重 \(0.15 \pm 0.07\)。induction heads(h5.8, h6.1, h6.15, h7.2)在上游聚合 \(m_1 \equiv m_2\) 的重复信息到 \([p]\) 位置
- (3) Mover Heads:9 个 mover heads 将正确信息传播到最后位置。正向 mover(h14.14, h15.14, h18.12)关注 \([p]\) 位置复制结论项;正向抑制头(h19.1)关注 \([m_2]\) 和 \([s]\) 进一步抑制干扰;负向 mover(h9.9, h11.1, h12.1, h17.2, h23.10)关注 \([m_1]\) — 是长归纳偏差的来源
电路验证¶
- 充分性测试:仅保留电路组件、消融其他所有头→恢复原始模型性能
- 必要性测试:消融电路组件、保留其他所有头→性能显著下降
- 鲁棒性测试:将字母改为数字、将"All … are"改为"Each … is"→电路仍然充分必要
实验关键数据¶
电路正确性(GPT-2 Medium,符号数据集)¶
| 测试 | 结果 |
|---|---|
| 充分性 | 仅保留电路即可恢复 baseline logit 差 |
| 必要性 | 消融电路则 logit 差显著下降 |
| 数值鲁棒性 | 字母→数字,电路仍有效 |
| 量词鲁棒性 | "All...are"→"Each...is",电路仍有效 |
信念偏差的电路层面证据¶
| 数据类型 | 电路必要性 | 电路充分性 |
|---|---|---|
| 符号 | ✓ | ✓ |
| 信念一致(真前提) | ✓ | ✓(性能恢复) |
| 信念不一致(假前提) | ✓ | ✗(无法完全恢复) |
- 信念不一致时电路不充分→说明有额外注意力头(编码世界知识/信念偏差)参与了推理
- 主项腐蚀实验:在非符号设置中,替换主项 \(s\) 导致 logit 差下降 299.96%;在符号设置中仅下降 0.35%——直接证明世界知识通过独立通道污染了逻辑电路
跨三段论格式泛化(15 种无条件有效格式)¶
| 条件 | 满足的格式 |
|---|---|
| C1(必要) + C2(充分) + C3(正logit差) | AAA-1, AII-3, IAI-3, IAI-4(准确率 ≥60%) |
| 仅 C1(必要) | 大部分格式 |
| 完全不满足 | AOO-2, AEE-4, EIO-2, AEE-2, EAE-2(准确率 <25%) |
跨架构泛化¶
| 模型组 | 模型 | 模式 |
|---|---|---|
| 不稳定 | Pythia-70M/160M | 不稳定激活模式 |
| 兼容 | Pythia-410M/1B, LLaMA-3.2-1B | 类似的抑制机制和信息流 |
| 变体 | Qwen-2.5-0.5B/1.5B | 抑制发生在最后 token 位置而非 \([p]\) |
关键发现¶
- 推理是内部纠错:模型先默认"长归纳"输出中间项(错误答案),然后通过抑制头主动纠正——这与人类通过抽象逻辑规则推理的方式完全不同
- 信念偏差的精确机制:世界知识通过电路外的额外注意力头"污染"逻辑推理——当前提与常识矛盾时,这些额外头的影响使符号电路不再充分
- 内容无关推理确实存在:在符号输入上发现的电路可迁移到自然语言(必要性成立),说明 LLM 确实学到了某种形式化的传递推理机制
- 电路复杂度随模型增大而增加:更大的模型在符号数据集上准确率反而下降(GPT-2 XL),同时非符号准确率上升——暗示世界知识的干扰随规模增长
亮点与洞察¶
- "抑制头"作为纠错机制:h11.10 的 OV 矩阵负对角线模式非常清晰——它不是"帮助找到正确答案",而是"主动消除错误答案"。这种纠错逻辑在之前的电路分析中很少见到
- 信念偏差的机械化解释:首次在电路层面精确描述了世界知识如何干扰逻辑推理——不是"推理电路本身有偏",而是"额外的知识编码头污染了推理管道"
- 微调不改变电路:在辩论文本上微调的 GPT-2 Medium 产生了几乎相同的激活模式,说明推理电路来自预训练而非微调——具有重要的理论意义
- 可迁移的分析方法:中间项腐蚀 + 全项腐蚀的两步干预设计可以推广到其他形式推理的电路分析
局限性 / 可改进方向¶
- 仅分析三段论一种推理形式:更复杂的推理(如多步推理链、反事实推理)可能需要不同的电路
- GPT-2 Medium 较小:大模型的电路可能更复杂,抑制机制可能分布在更多头上
- 因果干预的局限:仅分析传递性和 token 信息流两个维度,可能遗漏其他重要的推理动力学
- 模板化的任务设计:真实世界的三段论推理很少出现这种标准格式
相关工作与启发¶
- vs Stolfo et al. (2023):他们分析了 GPT-2 的加法电路——信息流模式类似(特定位置的注意力聚合),但逻辑推理电路多了一个"抑制"阶段
- vs Meng et al. (2022):他们用激活补丁定位事实知识的存储位置;本文用类似技术但关注推理过程而非知识存储
- vs Wiegreffe et al. (2025):他们分析多选题的注意力模式;本文更深入到电路层面的充分/必要性分析
- 对 LLM 推理能力的理论启示:LLM 确实学到了内容无关的推理机制,但这种机制不是人类式的抽象逻辑规则——而是基于统计模式的纠错过程,容易被预训练中获得的世界知识所干扰
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次完整描述逻辑推理电路的三阶段机制,"抑制头"发现具有重要理论价值
- 实验充分度: ⭐⭐⭐⭐ 充分/必要性消融 + 鲁棒性测试 + 信念偏差分析 + 15 种格式 + 4 种架构
- 写作质量: ⭐⭐⭐⭐⭐ 方法论严谨,发现描述清晰,图表信息量大
- 价值: ⭐⭐⭐⭐⭐ 对理解 LLM 推理本质(规则 vs 模式、知识 vs 推理的纠缠)有重要理论贡献