跳转至

Can Input Attributions Explain Inductive Reasoning in In-Context Learning?

会议: ACL 2025 arXiv: 2412.15628 代码: GitHub 领域: LLM / 可解释性 关键词: 输入归因, 上下文学习, 归纳推理, 梯度方法, aha example, LLM可解释性

一句话总结

设计受控的合成归纳推理任务评估 4 种输入归因方法解释 ICL 的能力,发现最简单的梯度范数常常最好,但所有方法在不同任务和模型规模上表现不一致且不稳定——ICL 的可解释性比预期更难。

研究背景与动机

  1. 领域现状:输入归因(IA)方法(saliency maps 等)在传统 NLP 模型上用于解释输入-输出关联。同时,机械可解释性(MI)研究正在通过干预内部表示和信息流来理解 LLM 内部电路。
  2. 现有痛点:IA 方法在 ICL 场景中面临新挑战——需要归因的不是单个 token 对输出的贡献,而是"哪些 few-shot 示例对任务识别/规则归纳的贡献"。这是实例级(instance-level)而非 token 级的解释问题,还未被系统研究。
  3. 核心矛盾:ICL 归纳推理需要模型从示例中归纳出规则然后应用——IA 方法能否追踪这个推理过程?在自然任务中,关键示例不唯一、数据泄漏干扰判断,难以严格评估。
  4. 本文要解决什么? 设计一套受控基准来严格评估 IA 方法在 ICL 归纳推理中的表现。
  5. 切入角度:灵感源自心理语言学的"刺激贫乏"范式——设计合成任务使大多数示例模棱两可,只有一个"aha example"能消歧。如果 IA 方法能识别这个 aha example,说明它追踪了归纳推理过程。
  6. 核心 idea 一句话:用受控的消歧示例作为 ground truth,评估 IA 方法能否解释 ICL 的归纳推理。

方法详解

整体框架

设计 5 个合成归纳推理任务 + 1 个联想记忆基线任务。每个任务中,大多数 ICL 示例与两种可能规则兼容,只有一个 aha example 消除歧义。测试 4 种 IA 方法能否将 aha example 排在贡献最高的位置。

四种归因方法

  1. 梯度范数 (GN):计算输出对输入 token 梯度的 L1 范数 \(S_{\text{GN}}(\mathbf{x}_i) = \|g(\mathbf{x}_i, y_t; \mathbf{X})\|_{L1}\)
  2. 输入擦除 (IE):逐个遮蔽 token(用 attention mask),观察输出概率变化
  3. 输入×梯度 (I×G):梯度与输入嵌入的逐元素乘积
  4. 积分梯度 (IG):沿基线(零向量)到输入的路径积分梯度

对 IE/GN/I×G 采用对比解释设置:不仅看目标 token 概率变化,还减去 foil token(对应替代规则)的变化,提高灵敏度。

6 个合成任务

任务 规则 A 规则 B 消歧方式
Linear-or-Distinct (LD) 选第 n 个位置字符 选与众不同的字符 aha 示例中 n 位置≠独特字符
Add-or-Multiply (AM) 加 m 个 token 乘以 n 倍 aha 示例长度使加法≠乘法
Verb-Object (VO) 动词决定标签 宾语类别决定标签 交叉组合消歧
Tense-Article (TA) 时态决定标签 冠词决定标签 交叉组合消歧
Pos-Title (PT) 是否含形容词 是否标题格式 交叉组合消歧
Associative-Recall (AR) 简单键值记忆 基线参考

评估指标

  • Top-2 accuracy:aha example 是否在 IA 分数最高的两个示例中(合理,因为模型至少需要 aha + 另一个示例来消歧)
  • Top-1 accuracy:aha example 是否 IA 分数最高
  • 6 模型:Llama-2 (7B/13B)、Gemma-2 (2B/9B/27B)、Mistral-7B
  • 3 设置:10-shot、50-shot、100-shot

实验关键数据

主实验(10-shot 设置,Top-2 / Top-1 accuracy %)

| 方法 | LD | AM | VO | TA | PT | AR | |------|----|----|----|----|----|----|---- | 编辑距离(基线) | ~20 | ~20 | ~20 | ~20 | ~20 | ~20 | | 注意力权重 | 中等 | 中等 | 差 | 差 | 差 | 好 | | 梯度范数 (GN) | 最好 | 最好 | 中等 | 最好 | 好 | 最好 | | 输入擦除 (IE) | 中等 | 中等 | 差 | 中等 | 中等 | 差 | | 输入×梯度 (I×G) | 差 | 差 | 差 | 差 | 差 | 差 | | 积分梯度 (IG) | 中等 | 中等 | 差 | 中等 | 中等 | 差 |

关键发现

  • 最简单的梯度范数常常最好——复杂方法(IG、I×G)没有一致性优势。在多数任务×模型组合上,GN 的 top-2 和 top-1 accuracy 最高
  • 所有方法在不同任务间表现高度不一致——某任务上最好的方法在另一任务上可能最差。没有"万能"IA 方法
  • 模型规模增大反而降低归因性能——更大的模型(如 Gemma-2-27B)IA 准确率反而下降,说明更强的模型内部机制更复杂,基于梯度的 IA 更难追踪
  • many-shot(50/100-shot)有时帮助 IA:更多示例提供了更多对比信号
  • even 简单的联想记忆任务(AR)一些 IA 方法也失败——说明问题不仅在归纳推理上,基础的 ICL 解释已经困难
  • 注意力权重在 AR(简单记忆)上好但在推理任务上差——注意力权重捕捉的是"关注什么"而非"推理什么"

亮点与洞察

  • "简单最好"的反直觉结论:在可解释性领域,更复杂精致的方法不一定更好。梯度范数的计算最简单,但可能因为避免了复杂方法引入的额外噪声而表现更稳健
  • 规模与可解释性的矛盾:更大的模型更强但更难解释——这对"先让模型变强再解释"的策略提出挑战
  • "aha example"实验设计深具创新性——借鉴心理语言学的消歧范式构建了有 ground truth 的可解释性基准

局限性 / 可改进方向

  • 仅合成任务:真实 ICL 场景中示例的信息量分布更复杂,且可能无唯一关键示例
  • 仅 token 级归因聚合到示例级:未探索直接的示例级归因方法(如 influence functions)
  • 主要是评估、未提出新方法:揭示了问题但未给出解决方案
  • 模型需要微调才能解决任务:使用微调后的模型做实验,但结论与微调前基本一致

相关工作与启发

  • vs 注意力分析:注意力权重 ≠ 归因——本文证实注意力在推理任务上作为解释的不可靠性
  • vs 探针方法 (probing):探针分析内部表示,IA 分析输入贡献——互补但各有局限
  • vs 机械可解释性 (MI):MI 揭示内部电路,IA 停留在输入层面——本文显示 IA 在 ICL 设置下不足
  • 启发:ICL 的可解释性需要新范式——现有 IA 方法虽有一定用处但远不够稳健

评分

  • 新颖性: ⭐⭐⭐ 主要是系统评估而非新方法,但 aha example 实验设计有创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 4 方法 × 6 任务 × 6 模型 × 3 shot 设置,覆盖全面
  • 写作质量: ⭐⭐⭐⭐ 分析深入诚实,不回避负面结果
  • 价值: ⭐⭐⭐⭐ 对 ICL 可解释性研究有重要参考,揭示了现有方法的根本局限