跳转至

Reasoning Circuits in Language Models: A Mechanistic Interpretation of Syllogistic Inference

会议: ACL 2025
arXiv: 2408.08590
代码: https://github.com/neuro-symbolic-ai/Mechanistic-Interpretation-Syllogism (有)
领域: LLM可解释性 / 逻辑推理
关键词: 机械可解释性, 三段论推理, 注意力电路, 激活补丁, 中间项抑制

一句话总结

用机械可解释性技术(激活补丁 + Logit Lens + 电路消融)发现语言模型中实现三段论推理的完整电路:三阶段机制——长归纳偏差→中间项抑制(h11.10)→传递项移动,该电路在符号输入上既充分又必要,可迁移到自然语言输入,且跨 GPT-2/Pythia/LLaMA/Qwen 四种架构存在兼容模式。

研究背景与动机

  1. 领域现状:LLM 展现出推理能力,机械可解释性已成功分析了加法电路(Stolfo et al. 2023)、缩写预测(García-Carrasco et al. 2024)、大小比较(Hanna et al. 2024)等简单电路,但对逻辑推理电路的机械化分析几乎空白。
  2. 现有痛点
  3. 不清楚 LLM 的推理是真正的逻辑规则应用还是训练数据中的表面模式复用——这是持续的争论(Talmor et al. 2020, Wu et al. 2024)
  4. LLM 在形式逻辑上表现不一致——对与常识一致的三段论准确率高,对与常识矛盾的低(信念偏差 belief bias)
  5. 之前的可解释性工作聚焦于事实关联定位(Meng et al. 2022),未进入逻辑推理领域
  6. 核心矛盾:如果 LLM 真正学会了推理规则,应该在符号输入上也能正确推理(内容无关性);但信念偏差的存在表明世界知识在"污染"推理过程。电路级分析可以精确定位这种污染机制。
  7. 本文要解决什么:(1) LLM 内部是否存在内容无关的三段论推理电路?(2) 信念偏差是如何在电路层面体现的?(3) 发现的电路是否跨三段论格式、模型大小和架构泛化?
  8. 切入角度:选择 AAA-1(Barbara)三段论——最常见的日常语言推理形式,且具有非条件有效性(结论的有效性独立于前提的真值),可以严格区分推理机制和知识表示。
  9. 核心idea一句话:用符号化三段论 + 激活补丁定位推理电路,发现一个基于"中间项抑制"的内部纠错机制。

方法详解

整体框架

三阶段方法论:(1) 定义三段论补全任务("All A are B. All B are C. Therefore, all A are ?",正确答案 C,干扰项 B),用 logit 差 \(\delta(p,m) = \text{logit}(p) - \text{logit}(m)\) 衡量推理成功;(2) 在纯符号输入上通过两种因果干预方法发现电路;(3) 在自然语言输入上评估电路的迁移性和信念偏差。

关键设计

  1. 三段论补全任务设计
  2. 做什么:将三段论形式化为语言模型补全任务——移除结论的最后一个词(谓词项 \(p\)),比较模型对 \(p\) 和中间项 \(m\) 的概率
  3. 核心思路:如果 \(P(p|[\mathcal{P}_1;\mathcal{P}_2;\mathcal{C}\setminus\{p\}]) > P(m|[\mathcal{P}_1;\mathcal{P}_2;\mathcal{C}\setminus\{p\}])\) 则推理成功
  4. 设计动机:使用 logit 差而非准确率,可以连续地衡量模型对正确答案的置信度。构建三种数据集:符号(随机大写字母)、信念一致(真前提,如"All men are mortal")、信念不一致(假前提,如"All pilots are blond")

  5. 两种因果干预方法

  6. 中间项腐蚀:将第二前提的中间项 \(m_2\) 替换为新符号 \(m_2'\)——打破传递性,定位参与传递推理的组件。核心假设:如果某个注意力头参与了传递推理,腐蚀中间项后该头的激活补丁应显示高恢复分数
  7. 全项腐蚀:替换所有项 \((s,m_1,m_2,p) \to (s',m_1',m_2',p')\) 但保持答案不变——追踪特定 token 信息如何流向最后位置,定位 mover head

  8. 三阶段推理电路发现(GPT-2 Medium)

  9. (1) 长归纳偏差(Long Induction):早期层的 negative mover heads(h9.9, h11.1, h12.1)表现出类似归纳头的行为,强烈关注 \([m_1]\) 位置——将第一前提的信息直接复制到最后位置,导致模型偏向输出中间项 B 而非正确答案 C
  10. (2) 中间项抑制(Suppression):关键发现——h11.10 从 \([m_2]\) 位置读取中间项信息,然后在 \([p]\) 位置写入抑制信号。Logit Lens 分析其 OV 矩阵显示清晰的负对角线模式——当关注某个 token 时,强烈抑制该 token 的 logit。平均注意力权重 \(0.15 \pm 0.07\)。induction heads(h5.8, h6.1, h6.15, h7.2)在上游聚合 \(m_1 \equiv m_2\) 的重复信息到 \([p]\) 位置
  11. (3) Mover Heads:9 个 mover heads 将正确信息传播到最后位置。正向 mover(h14.14, h15.14, h18.12)关注 \([p]\) 位置复制结论项;正向抑制头(h19.1)关注 \([m_2]\)\([s]\) 进一步抑制干扰;负向 mover(h9.9, h11.1, h12.1, h17.2, h23.10)关注 \([m_1]\) — 是长归纳偏差的来源

电路验证

  • 充分性测试:仅保留电路组件、消融其他所有头→恢复原始模型性能
  • 必要性测试:消融电路组件、保留其他所有头→性能显著下降
  • 鲁棒性测试:将字母改为数字、将"All … are"改为"Each … is"→电路仍然充分必要

实验关键数据

电路正确性(GPT-2 Medium,符号数据集)

测试 结果
充分性 仅保留电路即可恢复 baseline logit 差
必要性 消融电路则 logit 差显著下降
数值鲁棒性 字母→数字,电路仍有效
量词鲁棒性 "All...are"→"Each...is",电路仍有效

信念偏差的电路层面证据

数据类型 电路必要性 电路充分性
符号
信念一致(真前提) ✓(性能恢复)
信念不一致(假前提) ✗(无法完全恢复)
  • 信念不一致时电路不充分→说明有额外注意力头(编码世界知识/信念偏差)参与了推理
  • 主项腐蚀实验:在非符号设置中,替换主项 \(s\) 导致 logit 差下降 299.96%;在符号设置中仅下降 0.35%——直接证明世界知识通过独立通道污染了逻辑电路

跨三段论格式泛化(15 种无条件有效格式)

条件 满足的格式
C1(必要) + C2(充分) + C3(正logit差) AAA-1, AII-3, IAI-3, IAI-4(准确率 ≥60%)
仅 C1(必要) 大部分格式
完全不满足 AOO-2, AEE-4, EIO-2, AEE-2, EAE-2(准确率 <25%)

跨架构泛化

模型组 模型 模式
不稳定 Pythia-70M/160M 不稳定激活模式
兼容 Pythia-410M/1B, LLaMA-3.2-1B 类似的抑制机制和信息流
变体 Qwen-2.5-0.5B/1.5B 抑制发生在最后 token 位置而非 \([p]\)

关键发现

  • 推理是内部纠错:模型先默认"长归纳"输出中间项(错误答案),然后通过抑制头主动纠正——这与人类通过抽象逻辑规则推理的方式完全不同
  • 信念偏差的精确机制:世界知识通过电路外的额外注意力头"污染"逻辑推理——当前提与常识矛盾时,这些额外头的影响使符号电路不再充分
  • 内容无关推理确实存在:在符号输入上发现的电路可迁移到自然语言(必要性成立),说明 LLM 确实学到了某种形式化的传递推理机制
  • 电路复杂度随模型增大而增加:更大的模型在符号数据集上准确率反而下降(GPT-2 XL),同时非符号准确率上升——暗示世界知识的干扰随规模增长

亮点与洞察

  • "抑制头"作为纠错机制:h11.10 的 OV 矩阵负对角线模式非常清晰——它不是"帮助找到正确答案",而是"主动消除错误答案"。这种纠错逻辑在之前的电路分析中很少见到
  • 信念偏差的机械化解释:首次在电路层面精确描述了世界知识如何干扰逻辑推理——不是"推理电路本身有偏",而是"额外的知识编码头污染了推理管道"
  • 微调不改变电路:在辩论文本上微调的 GPT-2 Medium 产生了几乎相同的激活模式,说明推理电路来自预训练而非微调——具有重要的理论意义
  • 可迁移的分析方法:中间项腐蚀 + 全项腐蚀的两步干预设计可以推广到其他形式推理的电路分析

局限性 / 可改进方向

  • 仅分析三段论一种推理形式:更复杂的推理(如多步推理链、反事实推理)可能需要不同的电路
  • GPT-2 Medium 较小:大模型的电路可能更复杂,抑制机制可能分布在更多头上
  • 因果干预的局限:仅分析传递性和 token 信息流两个维度,可能遗漏其他重要的推理动力学
  • 模板化的任务设计:真实世界的三段论推理很少出现这种标准格式

相关工作与启发

  • vs Stolfo et al. (2023):他们分析了 GPT-2 的加法电路——信息流模式类似(特定位置的注意力聚合),但逻辑推理电路多了一个"抑制"阶段
  • vs Meng et al. (2022):他们用激活补丁定位事实知识的存储位置;本文用类似技术但关注推理过程而非知识存储
  • vs Wiegreffe et al. (2025):他们分析多选题的注意力模式;本文更深入到电路层面的充分/必要性分析
  • 对 LLM 推理能力的理论启示:LLM 确实学到了内容无关的推理机制,但这种机制不是人类式的抽象逻辑规则——而是基于统计模式的纠错过程,容易被预训练中获得的世界知识所干扰

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次完整描述逻辑推理电路的三阶段机制,"抑制头"发现具有重要理论价值
  • 实验充分度: ⭐⭐⭐⭐ 充分/必要性消融 + 鲁棒性测试 + 信念偏差分析 + 15 种格式 + 4 种架构
  • 写作质量: ⭐⭐⭐⭐⭐ 方法论严谨,发现描述清晰,图表信息量大
  • 价值: ⭐⭐⭐⭐⭐ 对理解 LLM 推理本质(规则 vs 模式、知识 vs 推理的纠缠)有重要理论贡献