Can Input Attributions Explain Inductive Reasoning in In-Context Learning?¶
会议: ACL 2025 arXiv: 2412.15628 代码: GitHub 领域: LLM / 可解释性 关键词: 输入归因, 上下文学习, 归纳推理, 梯度方法, aha example, LLM可解释性
一句话总结¶
设计受控的合成归纳推理任务评估 4 种输入归因方法解释 ICL 的能力,发现最简单的梯度范数常常最好,但所有方法在不同任务和模型规模上表现不一致且不稳定——ICL 的可解释性比预期更难。
研究背景与动机¶
- 领域现状:输入归因(IA)方法(saliency maps 等)在传统 NLP 模型上用于解释输入-输出关联。同时,机械可解释性(MI)研究正在通过干预内部表示和信息流来理解 LLM 内部电路。
- 现有痛点:IA 方法在 ICL 场景中面临新挑战——需要归因的不是单个 token 对输出的贡献,而是"哪些 few-shot 示例对任务识别/规则归纳的贡献"。这是实例级(instance-level)而非 token 级的解释问题,还未被系统研究。
- 核心矛盾:ICL 归纳推理需要模型从示例中归纳出规则然后应用——IA 方法能否追踪这个推理过程?在自然任务中,关键示例不唯一、数据泄漏干扰判断,难以严格评估。
- 本文要解决什么? 设计一套受控基准来严格评估 IA 方法在 ICL 归纳推理中的表现。
- 切入角度:灵感源自心理语言学的"刺激贫乏"范式——设计合成任务使大多数示例模棱两可,只有一个"aha example"能消歧。如果 IA 方法能识别这个 aha example,说明它追踪了归纳推理过程。
- 核心 idea 一句话:用受控的消歧示例作为 ground truth,评估 IA 方法能否解释 ICL 的归纳推理。
方法详解¶
整体框架¶
设计 5 个合成归纳推理任务 + 1 个联想记忆基线任务。每个任务中,大多数 ICL 示例与两种可能规则兼容,只有一个 aha example 消除歧义。测试 4 种 IA 方法能否将 aha example 排在贡献最高的位置。
四种归因方法¶
- 梯度范数 (GN):计算输出对输入 token 梯度的 L1 范数 \(S_{\text{GN}}(\mathbf{x}_i) = \|g(\mathbf{x}_i, y_t; \mathbf{X})\|_{L1}\)
- 输入擦除 (IE):逐个遮蔽 token(用 attention mask),观察输出概率变化
- 输入×梯度 (I×G):梯度与输入嵌入的逐元素乘积
- 积分梯度 (IG):沿基线(零向量)到输入的路径积分梯度
对 IE/GN/I×G 采用对比解释设置:不仅看目标 token 概率变化,还减去 foil token(对应替代规则)的变化,提高灵敏度。
6 个合成任务¶
| 任务 | 规则 A | 规则 B | 消歧方式 |
|---|---|---|---|
| Linear-or-Distinct (LD) | 选第 n 个位置字符 | 选与众不同的字符 | aha 示例中 n 位置≠独特字符 |
| Add-or-Multiply (AM) | 加 m 个 token | 乘以 n 倍 | aha 示例长度使加法≠乘法 |
| Verb-Object (VO) | 动词决定标签 | 宾语类别决定标签 | 交叉组合消歧 |
| Tense-Article (TA) | 时态决定标签 | 冠词决定标签 | 交叉组合消歧 |
| Pos-Title (PT) | 是否含形容词 | 是否标题格式 | 交叉组合消歧 |
| Associative-Recall (AR) | 简单键值记忆 | — | 基线参考 |
评估指标¶
- Top-2 accuracy:aha example 是否在 IA 分数最高的两个示例中(合理,因为模型至少需要 aha + 另一个示例来消歧)
- Top-1 accuracy:aha example 是否 IA 分数最高
- 6 模型:Llama-2 (7B/13B)、Gemma-2 (2B/9B/27B)、Mistral-7B
- 3 设置:10-shot、50-shot、100-shot
实验关键数据¶
主实验(10-shot 设置,Top-2 / Top-1 accuracy %)¶
| 方法 | LD | AM | VO | TA | PT | AR | |------|----|----|----|----|----|----|---- | 编辑距离(基线) | ~20 | ~20 | ~20 | ~20 | ~20 | ~20 | | 注意力权重 | 中等 | 中等 | 差 | 差 | 差 | 好 | | 梯度范数 (GN) | 最好 | 最好 | 中等 | 最好 | 好 | 最好 | | 输入擦除 (IE) | 中等 | 中等 | 差 | 中等 | 中等 | 差 | | 输入×梯度 (I×G) | 差 | 差 | 差 | 差 | 差 | 差 | | 积分梯度 (IG) | 中等 | 中等 | 差 | 中等 | 中等 | 差 |
关键发现¶
- 最简单的梯度范数常常最好——复杂方法(IG、I×G)没有一致性优势。在多数任务×模型组合上,GN 的 top-2 和 top-1 accuracy 最高
- 所有方法在不同任务间表现高度不一致——某任务上最好的方法在另一任务上可能最差。没有"万能"IA 方法
- 模型规模增大反而降低归因性能——更大的模型(如 Gemma-2-27B)IA 准确率反而下降,说明更强的模型内部机制更复杂,基于梯度的 IA 更难追踪
- many-shot(50/100-shot)有时帮助 IA:更多示例提供了更多对比信号
- even 简单的联想记忆任务(AR)一些 IA 方法也失败——说明问题不仅在归纳推理上,基础的 ICL 解释已经困难
- 注意力权重在 AR(简单记忆)上好但在推理任务上差——注意力权重捕捉的是"关注什么"而非"推理什么"
亮点与洞察¶
- "简单最好"的反直觉结论:在可解释性领域,更复杂精致的方法不一定更好。梯度范数的计算最简单,但可能因为避免了复杂方法引入的额外噪声而表现更稳健
- 规模与可解释性的矛盾:更大的模型更强但更难解释——这对"先让模型变强再解释"的策略提出挑战
- "aha example"实验设计深具创新性——借鉴心理语言学的消歧范式构建了有 ground truth 的可解释性基准
局限性 / 可改进方向¶
- 仅合成任务:真实 ICL 场景中示例的信息量分布更复杂,且可能无唯一关键示例
- 仅 token 级归因聚合到示例级:未探索直接的示例级归因方法(如 influence functions)
- 主要是评估、未提出新方法:揭示了问题但未给出解决方案
- 模型需要微调才能解决任务:使用微调后的模型做实验,但结论与微调前基本一致
相关工作与启发¶
- vs 注意力分析:注意力权重 ≠ 归因——本文证实注意力在推理任务上作为解释的不可靠性
- vs 探针方法 (probing):探针分析内部表示,IA 分析输入贡献——互补但各有局限
- vs 机械可解释性 (MI):MI 揭示内部电路,IA 停留在输入层面——本文显示 IA 在 ICL 设置下不足
- 启发:ICL 的可解释性需要新范式——现有 IA 方法虽有一定用处但远不够稳健
评分¶
- 新颖性: ⭐⭐⭐ 主要是系统评估而非新方法,但 aha example 实验设计有创新
- 实验充分度: ⭐⭐⭐⭐⭐ 4 方法 × 6 任务 × 6 模型 × 3 shot 设置,覆盖全面
- 写作质量: ⭐⭐⭐⭐ 分析深入诚实,不回避负面结果
- 价值: ⭐⭐⭐⭐ 对 ICL 可解释性研究有重要参考,揭示了现有方法的根本局限