Can Input Attributions Explain Inductive Reasoning in In-Context Learning?¶

会议: ACL 2025 arXiv: 2412.15628 代码: GitHub 领域: LLM / 可解释性 关键词: 输入归因, 上下文学习, 归纳推理, 梯度方法, aha example, LLM可解释性

一句话总结¶

设计受控的合成归纳推理任务评估 4 种输入归因方法解释 ICL 的能力，发现最简单的梯度范数常常最好，但所有方法在不同任务和模型规模上表现不一致且不稳定——ICL 的可解释性比预期更难。

研究背景与动机¶

领域现状：输入归因（IA）方法（saliency maps 等）在传统 NLP 模型上用于解释输入-输出关联。同时，机械可解释性（MI）研究正在通过干预内部表示和信息流来理解 LLM 内部电路。
现有痛点：IA 方法在 ICL 场景中面临新挑战——需要归因的不是单个 token 对输出的贡献，而是"哪些 few-shot 示例对任务识别/规则归纳的贡献"。这是实例级（instance-level）而非 token 级的解释问题，还未被系统研究。
核心矛盾：ICL 归纳推理需要模型从示例中归纳出规则然后应用——IA 方法能否追踪这个推理过程？在自然任务中，关键示例不唯一、数据泄漏干扰判断，难以严格评估。
本文要解决什么？ 设计一套受控基准来严格评估 IA 方法在 ICL 归纳推理中的表现。
切入角度：灵感源自心理语言学的"刺激贫乏"范式——设计合成任务使大多数示例模棱两可，只有一个"aha example"能消歧。如果 IA 方法能识别这个 aha example，说明它追踪了归纳推理过程。
核心 idea 一句话：用受控的消歧示例作为 ground truth，评估 IA 方法能否解释 ICL 的归纳推理。

方法详解¶

整体框架¶

设计 5 个合成归纳推理任务 + 1 个联想记忆基线任务。每个任务中，大多数 ICL 示例与两种可能规则兼容，只有一个 aha example 消除歧义。测试 4 种 IA 方法能否将 aha example 排在贡献最高的位置。

四种归因方法¶

梯度范数 (GN)：计算输出对输入 token 梯度的 L1 范数 \(S_{\text{GN}}(\mathbf{x}_i) = \|g(\mathbf{x}_i, y_t; \mathbf{X})\|_{L1}\)
输入擦除 (IE)：逐个遮蔽 token（用 attention mask），观察输出概率变化
输入×梯度 (I×G)：梯度与输入嵌入的逐元素乘积
积分梯度 (IG)：沿基线（零向量）到输入的路径积分梯度

对 IE/GN/I×G 采用对比解释设置：不仅看目标 token 概率变化，还减去 foil token（对应替代规则）的变化，提高灵敏度。

6 个合成任务¶

任务	规则 A	规则 B	消歧方式
Linear-or-Distinct (LD)	选第 n 个位置字符	选与众不同的字符	aha 示例中 n 位置≠独特字符
Add-or-Multiply (AM)	加 m 个 token	乘以 n 倍	aha 示例长度使加法≠乘法
Verb-Object (VO)	动词决定标签	宾语类别决定标签	交叉组合消歧
Tense-Article (TA)	时态决定标签	冠词决定标签	交叉组合消歧
Pos-Title (PT)	是否含形容词	是否标题格式	交叉组合消歧
Associative-Recall (AR)	简单键值记忆	—	基线参考

评估指标¶

Top-2 accuracy：aha example 是否在 IA 分数最高的两个示例中（合理，因为模型至少需要 aha + 另一个示例来消歧）
Top-1 accuracy：aha example 是否 IA 分数最高
6 模型：Llama-2 (7B/13B)、Gemma-2 (2B/9B/27B)、Mistral-7B
3 设置：10-shot、50-shot、100-shot

实验关键数据¶

主实验（10-shot 设置，Top-2 / Top-1 accuracy %）¶

| 方法 | LD | AM | VO | TA | PT | AR | |------|----|----|----|----|----|----|---- | 编辑距离（基线） | ~20 | ~20 | ~20 | ~20 | ~20 | ~20 | | 注意力权重 | 中等 | 中等 | 差 | 差 | 差 | 好 | | 梯度范数 (GN) | 最好 | 最好 | 中等 | 最好 | 好 | 最好 | | 输入擦除 (IE) | 中等 | 中等 | 差 | 中等 | 中等 | 差 | | 输入×梯度 (I×G) | 差 | 差 | 差 | 差 | 差 | 差 | | 积分梯度 (IG) | 中等 | 中等 | 差 | 中等 | 中等 | 差 |

关键发现¶

最简单的梯度范数常常最好——复杂方法（IG、I×G）没有一致性优势。在多数任务×模型组合上，GN 的 top-2 和 top-1 accuracy 最高
所有方法在不同任务间表现高度不一致——某任务上最好的方法在另一任务上可能最差。没有"万能"IA 方法
模型规模增大反而降低归因性能——更大的模型（如 Gemma-2-27B）IA 准确率反而下降，说明更强的模型内部机制更复杂，基于梯度的 IA 更难追踪
many-shot（50/100-shot）有时帮助 IA：更多示例提供了更多对比信号
even 简单的联想记忆任务（AR）一些 IA 方法也失败——说明问题不仅在归纳推理上，基础的 ICL 解释已经困难
注意力权重在 AR（简单记忆）上好但在推理任务上差——注意力权重捕捉的是"关注什么"而非"推理什么"

亮点与洞察¶

"简单最好"的反直觉结论：在可解释性领域，更复杂精致的方法不一定更好。梯度范数的计算最简单，但可能因为避免了复杂方法引入的额外噪声而表现更稳健
规模与可解释性的矛盾：更大的模型更强但更难解释——这对"先让模型变强再解释"的策略提出挑战
"aha example"实验设计深具创新性——借鉴心理语言学的消歧范式构建了有 ground truth 的可解释性基准

局限性 / 可改进方向¶

仅合成任务：真实 ICL 场景中示例的信息量分布更复杂，且可能无唯一关键示例
仅 token 级归因聚合到示例级：未探索直接的示例级归因方法（如 influence functions）
主要是评估、未提出新方法：揭示了问题但未给出解决方案
模型需要微调才能解决任务：使用微调后的模型做实验，但结论与微调前基本一致

评分¶

新颖性: ⭐⭐⭐ 主要是系统评估而非新方法，但 aha example 实验设计有创新
实验充分度: ⭐⭐⭐⭐⭐ 4 方法 × 6 任务 × 6 模型 × 3 shot 设置，覆盖全面
写作质量: ⭐⭐⭐⭐ 分析深入诚实，不回避负面结果
价值: ⭐⭐⭐⭐ 对 ICL 可解释性研究有重要参考，揭示了现有方法的根本局限