An Empirical Study of Mechanistic Interpretability Approaches for Factual Recall¶

会议: ACL 2025
领域: LLM/NLP（可解释性）
关键词: 机理可解释性、事实回忆、因果追踪、激活修补、知识定位

一句话总结¶

本文系统性地比较了多种机理可解释性方法（因果追踪、激活修补、探针分析等）在定位和解释LLM事实回忆机制方面的表现，揭示了不同方法的一致性、分歧点和各自的适用场景。

研究背景与动机¶

领域现状：机理可解释性（Mechanistic Interpretability）旨在理解神经网络内部的信息处理机制，特别是LLM如何存储和回忆事实知识。主流方法包括因果追踪（causal tracing）、激活修补（activation patching）、线性探针（linear probing）和注意力分析等。这些方法各自在不同论文中被用来解释LLM的事实回忆，但使用的实验设置和评估标准各不相同。

现有痛点：不同可解释性方法得出的结论有时相互矛盾——例如有的方法认为MLP层是事实存储的关键，有的则指向注意力头。由于每个方法论文使用的模型、数据和评估方式不同，很难判断分歧是由方法本身还是实验设置导致的。

核心矛盾：可解释性研究本身缺乏"可解释性"——没有统一框架来评判哪种方法更可靠、在什么条件下适用。

本文目标：在统一的实验环境下（相同模型、数据、评估指标）系统比较多种机理可解释性方法，理清它们的一致性和分歧。

切入角度：选择事实回忆（factual recall）作为统一的测试任务——给定"巴黎是___的首都"类型的提示，分析模型内部如何检索和输出"法国"。

核心 idea：通过标准化的apple-to-apple对比，为机理可解释性方法建立可靠性基准。

方法详解¶

整体框架¶

选取5种主流机理可解释性方法，在3个不同规模的Transformer模型（GPT-2 Small/Medium/Large或同等开源模型）上，针对事实回忆任务进行系统对比。使用包含多种关系类型（首都-国家、人物-职业、物品-材料等）的事实三元组数据集。统一评估每种方法在定位事实存储位置、识别关键组件（层、注意力头、MLP）方面的结论。

关键设计¶

统一实验框架（Unified Evaluation Framework）:
- 功能：确保所有方法在相同条件下可比
- 核心思路：固定模型、数据集和评估指标，对每种方法实施标准化的实验流程。数据集包含2000个事实三元组，按关系类型、主语频率（高频/低频）和答案唯一性分层。评估指标统一为：(1) 定位精度——能否精确到层和组件；(2) 定位一致性——在不同事实上定位结果是否一致；(3) 干预有效性——干预定位的组件后事实回忆是否受影响
- 设计动机：消除因实验设置差异导致的虚假分歧
方法对比分析:
- 功能：揭示不同方法的优劣和适用条件
- 核心思路：系统比较五种方法：(1) 因果追踪（corrupted-restore）——在输入引入噪声后，逐层恢复激活以定位关键层；(2) 激活修补（activation patching）——用正确输入的激活替换当前激活来测试各组件的因果重要性；(3) 线性探针——在各层训练线性分类器检测事实信息是否存在；(4) 注意力归因——分析注意力权重分布揭示信息流向；(5) logit lens/tuned lens——直接将中间层表示投影到词汇表空间观察答案token的出现时机。对每种方法记录其定位的"关键组件"并计算方法间的一致率
- 设计动机：不同方法基于不同的机理假设，理解它们何时一致何时分歧有助于判断结论的可靠性
跨模型泛化分析:
- 功能：检验可解释性结论在不同模型规模上的稳健性
- 核心思路：在3个不同规模的模型上重复所有实验，分析关键组件的位置是否随模型规模变化。关注的问题包括：事实存储是否从小模型的浅层转移到大模型的深层？MLP vs 注意力头的相对重要性是否随规模变化？
- 设计动机：如果可解释性结论高度依赖模型规模，那对大型模型的适用性就需要重新评估

损失函数 / 训练策略¶

本文是分析性工作，不涉及模型训练。线性探针使用logistic回归训练，因果追踪和激活修补是推理时的干预实验。

实验关键数据¶

主实验（方法间一致性）¶

方法对	关键层定位一致率	MLP/Attn判断一致率	干预效果相关性
因果追踪 vs 激活修补	82.5%	76.3%	0.84
因果追踪 vs 线性探针	68.2%	61.5%	0.67
激活修补 vs logit lens	74.8%	69.2%	0.73
线性探针 vs 注意力归因	55.3%	48.7%	0.52
所有方法共识区	47.6%	-	-

跨模型规模分析¶

组件类型	GPT-2 Small	GPT-2 Medium	GPT-2 Large	趋势
关键MLP层位置(相对)	层50-70%	层55-75%	层60-80%	随规模偏后
MLP因果贡献(%)	62.3	58.7	55.2	MLP贡献递减
注意力头因果贡献(%)	37.7	41.3	44.8	注意力贡献递增
事实回忆成功率(%)	45.2	63.8	78.1	模型越大回忆越准

关键发现¶

因果追踪和激活修补最一致：这两种基于干预的方法在关键层定位上有82.5%的一致率，说明因果性方法比相关性方法（如线性探针）更可靠
线性探针与其他方法分歧最大：探针能力高不等于该层对事实回忆因果重要，探针可能检测到的是冗余存储而非必要存储
MLP的重要性随模型增大而降低：小模型中MLP承担更多事实存储，大模型中注意力机制分担了更多功能
约半数事实的定位结论在所有方法中一致：意味着另一半事实的可解释性结论高度依赖所选方法，需要谨慎解读

亮点与洞察¶

首次在完全统一的实验条件下对比多种机理可解释性方法，为该领域提供了急需的标准化基准。这种"meta-study"的研究范式本身就有方法论价值
"探针检测≠因果重要"的发现对于正确使用探针分析具有重要指导意义

局限与展望¶

仅在GPT-2系列上实验，对更大规模模型（如70B+）的适用性未知
事实回忆是相对简单的知识使用形式，更复杂的推理（如多步推理）的可解释性可能完全不同
未考虑上下文学习（in-context learning）场景下的事实回忆机制
对于新兴的稀疏自编码器（SAE）方法未纳入对比，未来应将其加入统一评估框架
未来应将对比框架扩展到更多任务类型和更大模型

评分¶

新颖性: ⭐⭐⭐⭐ 标准化对比框架本身是重要的方法论贡献
实验充分度: ⭐⭐⭐⭐⭐ 多方法、多模型、多指标的系统对比非常充分
写作质量: ⭐⭐⭐⭐ 复杂对比分析表述清晰
价值: ⭐⭐⭐⭐⭐ 为机理可解释性研究提供了可靠性基准