Reasoning Circuits in Language Models: A Mechanistic Interpretation of Syllogistic Inference¶

会议: ACL 2025
arXiv: 2408.08590
代码: https://github.com/neuro-symbolic-ai/Mechanistic-Interpretation-Syllogism (有)
领域: LLM可解释性 / 逻辑推理
关键词: 机械可解释性, 三段论推理, 注意力电路, 激活补丁, 中间项抑制

一句话总结¶

用机械可解释性技术（激活补丁 + Logit Lens + 电路消融）发现语言模型中实现三段论推理的完整电路：三阶段机制——长归纳偏差→中间项抑制（h11.10）→传递项移动，该电路在符号输入上既充分又必要，可迁移到自然语言输入，且跨 GPT-2/Pythia/LLaMA/Qwen 四种架构存在兼容模式。

研究背景与动机¶

领域现状：LLM 展现出推理能力，机械可解释性已成功分析了加法电路（Stolfo et al. 2023）、缩写预测（García-Carrasco et al. 2024）、大小比较（Hanna et al. 2024）等简单电路，但对逻辑推理电路的机械化分析几乎空白。
现有痛点：
不清楚 LLM 的推理是真正的逻辑规则应用还是训练数据中的表面模式复用——这是持续的争论（Talmor et al. 2020, Wu et al. 2024）
LLM 在形式逻辑上表现不一致——对与常识一致的三段论准确率高，对与常识矛盾的低（信念偏差 belief bias）
之前的可解释性工作聚焦于事实关联定位（Meng et al. 2022），未进入逻辑推理领域
核心矛盾：如果 LLM 真正学会了推理规则，应该在符号输入上也能正确推理（内容无关性）；但信念偏差的存在表明世界知识在"污染"推理过程。电路级分析可以精确定位这种污染机制。
本文要解决什么：(1) LLM 内部是否存在内容无关的三段论推理电路？(2) 信念偏差是如何在电路层面体现的？(3) 发现的电路是否跨三段论格式、模型大小和架构泛化？
切入角度：选择 AAA-1（Barbara）三段论——最常见的日常语言推理形式，且具有非条件有效性（结论的有效性独立于前提的真值），可以严格区分推理机制和知识表示。
核心idea一句话：用符号化三段论 + 激活补丁定位推理电路，发现一个基于"中间项抑制"的内部纠错机制。

方法详解¶

整体框架¶

三阶段方法论：(1) 定义三段论补全任务（"All A are B. All B are C. Therefore, all A are ?"，正确答案 C，干扰项 B），用 logit 差 \(\delta(p,m) = \text{logit}(p) - \text{logit}(m)\) 衡量推理成功；(2) 在纯符号输入上通过两种因果干预方法发现电路；(3) 在自然语言输入上评估电路的迁移性和信念偏差。

关键设计¶

三段论补全任务设计：
做什么：将三段论形式化为语言模型补全任务——移除结论的最后一个词（谓词项 \(p\)），比较模型对 \(p\) 和中间项 \(m\) 的概率
核心思路：如果 \(P(p|[\mathcal{P}_1;\mathcal{P}_2;\mathcal{C}\setminus\{p\}]) > P(m|[\mathcal{P}_1;\mathcal{P}_2;\mathcal{C}\setminus\{p\}])\) 则推理成功
设计动机：使用 logit 差而非准确率，可以连续地衡量模型对正确答案的置信度。构建三种数据集：符号（随机大写字母）、信念一致（真前提，如"All men are mortal"）、信念不一致（假前提，如"All pilots are blond"）
两种因果干预方法：
中间项腐蚀：将第二前提的中间项 \(m_2\) 替换为新符号 \(m_2'\)——打破传递性，定位参与传递推理的组件。核心假设：如果某个注意力头参与了传递推理，腐蚀中间项后该头的激活补丁应显示高恢复分数
全项腐蚀：替换所有项 \((s,m_1,m_2,p) \to (s',m_1',m_2',p')\) 但保持答案不变——追踪特定 token 信息如何流向最后位置，定位 mover head
三阶段推理电路发现（GPT-2 Medium）：
(1) 长归纳偏差（Long Induction）：早期层的 negative mover heads（h9.9, h11.1, h12.1）表现出类似归纳头的行为，强烈关注 \([m_1]\) 位置——将第一前提的信息直接复制到最后位置，导致模型偏向输出中间项 B 而非正确答案 C
(2) 中间项抑制（Suppression）：关键发现——h11.10 从 \([m_2]\) 位置读取中间项信息，然后在 \([p]\) 位置写入抑制信号。Logit Lens 分析其 OV 矩阵显示清晰的负对角线模式——当关注某个 token 时，强烈抑制该 token 的 logit。平均注意力权重 \(0.15 \pm 0.07\)。induction heads（h5.8, h6.1, h6.15, h7.2）在上游聚合 \(m_1 \equiv m_2\) 的重复信息到 \([p]\) 位置
(3) Mover Heads：9 个 mover heads 将正确信息传播到最后位置。正向 mover（h14.14, h15.14, h18.12）关注 \([p]\) 位置复制结论项；正向抑制头（h19.1）关注 \([m_2]\) 和 \([s]\) 进一步抑制干扰；负向 mover（h9.9, h11.1, h12.1, h17.2, h23.10）关注 \([m_1]\) — 是长归纳偏差的来源

电路验证¶

充分性测试：仅保留电路组件、消融其他所有头→恢复原始模型性能
必要性测试：消融电路组件、保留其他所有头→性能显著下降
鲁棒性测试：将字母改为数字、将"All … are"改为"Each … is"→电路仍然充分必要

实验关键数据¶

电路正确性（GPT-2 Medium，符号数据集）¶

测试	结果
充分性	仅保留电路即可恢复 baseline logit 差
必要性	消融电路则 logit 差显著下降
数值鲁棒性	字母→数字，电路仍有效
量词鲁棒性	"All...are"→"Each...is"，电路仍有效

信念偏差的电路层面证据¶

数据类型	电路必要性	电路充分性
符号	✓	✓
信念一致（真前提）	✓	✓（性能恢复）
信念不一致（假前提）	✓	✗（无法完全恢复）

信念不一致时电路不充分→说明有额外注意力头（编码世界知识/信念偏差）参与了推理
主项腐蚀实验：在非符号设置中，替换主项 \(s\) 导致 logit 差下降 299.96%；在符号设置中仅下降 0.35%——直接证明世界知识通过独立通道污染了逻辑电路

跨三段论格式泛化（15 种无条件有效格式）¶

条件	满足的格式
C1(必要) + C2(充分) + C3(正logit差)	AAA-1, AII-3, IAI-3, IAI-4（准确率 ≥60%）
仅 C1(必要)	大部分格式
完全不满足	AOO-2, AEE-4, EIO-2, AEE-2, EAE-2（准确率 <25%）

跨架构泛化¶

模型组	模型	模式
不稳定	Pythia-70M/160M	不稳定激活模式
兼容	Pythia-410M/1B, LLaMA-3.2-1B	类似的抑制机制和信息流
变体	Qwen-2.5-0.5B/1.5B	抑制发生在最后 token 位置而非 \([p]\)

关键发现¶

推理是内部纠错：模型先默认"长归纳"输出中间项（错误答案），然后通过抑制头主动纠正——这与人类通过抽象逻辑规则推理的方式完全不同
信念偏差的精确机制：世界知识通过电路外的额外注意力头"污染"逻辑推理——当前提与常识矛盾时，这些额外头的影响使符号电路不再充分
内容无关推理确实存在：在符号输入上发现的电路可迁移到自然语言（必要性成立），说明 LLM 确实学到了某种形式化的传递推理机制
电路复杂度随模型增大而增加：更大的模型在符号数据集上准确率反而下降（GPT-2 XL），同时非符号准确率上升——暗示世界知识的干扰随规模增长

亮点与洞察¶

"抑制头"作为纠错机制：h11.10 的 OV 矩阵负对角线模式非常清晰——它不是"帮助找到正确答案"，而是"主动消除错误答案"。这种纠错逻辑在之前的电路分析中很少见到
信念偏差的机械化解释：首次在电路层面精确描述了世界知识如何干扰逻辑推理——不是"推理电路本身有偏"，而是"额外的知识编码头污染了推理管道"
微调不改变电路：在辩论文本上微调的 GPT-2 Medium 产生了几乎相同的激活模式，说明推理电路来自预训练而非微调——具有重要的理论意义
可迁移的分析方法：中间项腐蚀 + 全项腐蚀的两步干预设计可以推广到其他形式推理的电路分析

局限性 / 可改进方向¶

仅分析三段论一种推理形式：更复杂的推理（如多步推理链、反事实推理）可能需要不同的电路
GPT-2 Medium 较小：大模型的电路可能更复杂，抑制机制可能分布在更多头上
因果干预的局限：仅分析传递性和 token 信息流两个维度，可能遗漏其他重要的推理动力学
模板化的任务设计：真实世界的三段论推理很少出现这种标准格式

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次完整描述逻辑推理电路的三阶段机制，"抑制头"发现具有重要理论价值
实验充分度: ⭐⭐⭐⭐ 充分/必要性消融 + 鲁棒性测试 + 信念偏差分析 + 15 种格式 + 4 种架构
写作质量: ⭐⭐⭐⭐⭐ 方法论严谨，发现描述清晰，图表信息量大
价值: ⭐⭐⭐⭐⭐ 对理解 LLM 推理本质（规则 vs 模式、知识 vs 推理的纠缠）有重要理论贡献