Multi-Level Explanations for Generative Language Models¶

会议: ACL 2025
arXiv: 2403.14459
代码: https://github.com/IBM/ICX360
领域: 文本生成
关键词: 可解释性, 归因方法, LLM解释, LIME/SHAP, 上下文生成

一句话总结¶

提出 MExGen（Multi-Level Explanations for Generative Language Models），将 LIME/SHAP 等扰动式归因方法扩展到 LLM 的上下文生成任务上——为摘要/问答等任务中 LLM 输出的每个部分量化上下文各段落的影响程度，比 LLM 自解释更忠实。

研究背景与动机¶

领域现状：LLM 在摘要、问答等上下文生成任务中广泛使用，但理解"为什么 LLM 生成了这个回答"仍然困难。
现有痛点：(a) LIME/SHAP 等扰动式归因方法是为分类任务设计的，直接应用于生成任务面临三个挑战——推理成本高、输入文本长、输出是文本而非标签；(b) LLM 自解释（如"请解释你的推理"）不够忠实——LLM 可能编造合理但不真实的解释。
核心矛盾：扰动式归因方法理论上最忠实，但计算成本在 LLM 上变得不可承受——需要数千次 LLM 调用。
本文要解决什么？ 高效地为 LLM 上下文生成提供忠实的扰动式归因解释。
切入角度：多层次归因——从粗粒度（文档级）到细粒度（句子级），用层次化搜索减少所需的扰动次数。
核心idea一句话：多层次 LIME/SHAP 从粗到细归因，比 LLM 自解释更忠实且计算可行。

方法详解¶

整体框架¶

MExGen 的两阶段归因：(1) 粗粒度归因——将上下文分为大块（如段落），用少量扰动识别重要块；(2) 细粒度归因——在重要块内进一步细分（如句子级），用额外扰动找到具体的关键句子。通过层次化减少总扰动次数。

关键设计¶

多层次扰动策略:
做什么：将长上下文的归因分解为多层次
核心思路：第一层将文档分为 N 个块，用 LIME 归因识别最重要的 K 个块（需要 ~N 次扰动）。第二层在 K 个块内做句子级归因（需要额外 ~M 次扰动）。总扰动次数 ~N+M 远少于直接句子级的 ~N*M
设计动机：长上下文的全句子级归因需要指数级扰动，层次化使其可行
输出到标量的映射:
做什么：将 LLM 的文本输出转化为归因方法需要的标量分数
核心思路：定义"输出保真度"函数——给定扰动后的输入，LLM 的输出与原始输出的（语义）相似度
设计动机：传统 LIME/SHAP 需要标量输出（如分类概率），文本输出需要额外映射
与 LLM 自解释的对比:
做什么：验证 MExGen 比 LLM 自解释更忠实
核心思路：设计忠实度测试——移除被标记为"重要"的上下文部分，观察输出变化。忠实的解释移除后应导致更大变化
结果：MExGen 的忠实度显著高于 LLM 自解释

损失函数 / 训练策略¶

无需训练——纯推理时方法
开源为 ICX360 工具包的一部分

实验关键数据¶

主实验（摘要+问答任务）¶

方法	忠实度(↑)	计算成本	说明
LLM 自解释	低	1次调用	容易编造
LIME (句子级)	高	极高	不可行
MExGen (多层次)	高	中等	层次化减少成本

关键发现¶

MExGen 在忠实度上显著优于 LLM 自解释——LLM 倾向于给出"合理但不真实"的解释
多层次策略将扰动次数减少了 5-10 倍——使归因在实际 LLM 上可行
人工评估确认 MExGen 的解释对用户更有帮助
开源为可复用工具包，便于集成到 RAG/QA 系统中

亮点与洞察¶

"LLM 自解释不忠实"是重要验证——证明了我们不能依赖 LLM 自己说的"推理过程"。
多层次归因从粗到细优雅地解决了计算瓶颈——层次化搜索是经典但有效的策略。
该工具对 RAG 系统的可解释性有直接价值——用户可以知道回答依据了上下文的哪些部分。
开源工具包降低了使用门槛。

局限性 / 可改进方向¶

仍需多次 LLM 调用（虽然比全量少很多）——每个解释需要 ~50-100 次调用
依赖"输出保真度"函数的质量
仅在摘要和 QA 两种任务上验证

评分¶

新颖性: ⭐⭐⭐⭐ 将经典归因方法系统化地适配到LLM生成
实验充分度: ⭐⭐⭐⭐ 自动+人工忠实度评估+与自解释对比
写作质量: ⭐⭐⭐⭐ 方法描述清晰
价值: ⭐⭐⭐⭐ 对LLM可解释性有实用价值，开源工具包