跳转至

Multi-Level Explanations for Generative Language Models

会议: ACL 2025
arXiv: 2403.14459
代码: https://github.com/IBM/ICX360
领域: 文本生成
关键词: 可解释性, 归因方法, LLM解释, LIME/SHAP, 上下文生成

一句话总结

提出 MExGen(Multi-Level Explanations for Generative Language Models),将 LIME/SHAP 等扰动式归因方法扩展到 LLM 的上下文生成任务上——为摘要/问答等任务中 LLM 输出的每个部分量化上下文各段落的影响程度,比 LLM 自解释更忠实。

研究背景与动机

  1. 领域现状:LLM 在摘要、问答等上下文生成任务中广泛使用,但理解"为什么 LLM 生成了这个回答"仍然困难。
  2. 现有痛点:(a) LIME/SHAP 等扰动式归因方法是为分类任务设计的,直接应用于生成任务面临三个挑战——推理成本高、输入文本长、输出是文本而非标签;(b) LLM 自解释(如"请解释你的推理")不够忠实——LLM 可能编造合理但不真实的解释。
  3. 核心矛盾:扰动式归因方法理论上最忠实,但计算成本在 LLM 上变得不可承受——需要数千次 LLM 调用。
  4. 本文要解决什么? 高效地为 LLM 上下文生成提供忠实的扰动式归因解释。
  5. 切入角度:多层次归因——从粗粒度(文档级)到细粒度(句子级),用层次化搜索减少所需的扰动次数。
  6. 核心idea一句话:多层次 LIME/SHAP 从粗到细归因,比 LLM 自解释更忠实且计算可行。

方法详解

整体框架

MExGen 的两阶段归因:(1) 粗粒度归因——将上下文分为大块(如段落),用少量扰动识别重要块;(2) 细粒度归因——在重要块内进一步细分(如句子级),用额外扰动找到具体的关键句子。通过层次化减少总扰动次数。

关键设计

  1. 多层次扰动策略:
  2. 做什么:将长上下文的归因分解为多层次
  3. 核心思路:第一层将文档分为 N 个块,用 LIME 归因识别最重要的 K 个块(需要 ~N 次扰动)。第二层在 K 个块内做句子级归因(需要额外 ~M 次扰动)。总扰动次数 ~N+M 远少于直接句子级的 ~N*M
  4. 设计动机:长上下文的全句子级归因需要指数级扰动,层次化使其可行

  5. 输出到标量的映射:

  6. 做什么:将 LLM 的文本输出转化为归因方法需要的标量分数
  7. 核心思路:定义"输出保真度"函数——给定扰动后的输入,LLM 的输出与原始输出的(语义)相似度
  8. 设计动机:传统 LIME/SHAP 需要标量输出(如分类概率),文本输出需要额外映射

  9. 与 LLM 自解释的对比:

  10. 做什么:验证 MExGen 比 LLM 自解释更忠实
  11. 核心思路:设计忠实度测试——移除被标记为"重要"的上下文部分,观察输出变化。忠实的解释移除后应导致更大变化
  12. 结果:MExGen 的忠实度显著高于 LLM 自解释

损失函数 / 训练策略

  • 无需训练——纯推理时方法
  • 开源为 ICX360 工具包的一部分

实验关键数据

主实验(摘要+问答任务)

方法 忠实度(↑) 计算成本 说明
LLM 自解释 1次调用 容易编造
LIME (句子级) 极高 不可行
MExGen (多层次) 中等 层次化减少成本

关键发现

  • MExGen 在忠实度上显著优于 LLM 自解释——LLM 倾向于给出"合理但不真实"的解释
  • 多层次策略将扰动次数减少了 5-10 倍——使归因在实际 LLM 上可行
  • 人工评估确认 MExGen 的解释对用户更有帮助
  • 开源为可复用工具包,便于集成到 RAG/QA 系统中

亮点与洞察

  • "LLM 自解释不忠实"是重要验证——证明了我们不能依赖 LLM 自己说的"推理过程"。
  • 多层次归因从粗到细优雅地解决了计算瓶颈——层次化搜索是经典但有效的策略。
  • 该工具对 RAG 系统的可解释性有直接价值——用户可以知道回答依据了上下文的哪些部分。
  • 开源工具包降低了使用门槛。

局限性 / 可改进方向

  • 仍需多次 LLM 调用(虽然比全量少很多)——每个解释需要 ~50-100 次调用
  • 依赖"输出保真度"函数的质量
  • 仅在摘要和 QA 两种任务上验证

相关工作与启发

  • vs LAQuer: LAQuer 从输出定位到源片段;MExGen 量化源片段的影响程度——互补
  • vs Attention 可视化: Attention 分布不等于归因;MExGen 通过扰动提供更准确的因果归因
  • vs Chain-of-Thought 自解释: CoT 解释可读但不忠实;MExGen 不可读但忠实——两种不同需求

评分

  • 新颖性: ⭐⭐⭐⭐ 将经典归因方法系统化地适配到LLM生成
  • 实验充分度: ⭐⭐⭐⭐ 自动+人工忠实度评估+与自解释对比
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰
  • 价值: ⭐⭐⭐⭐ 对LLM可解释性有实用价值,开源工具包