Compact Example-Based Explanations for Language Models¶

会议: ACL 2026
arXiv: 2601.03786
代码: 无
领域: 可解释性 / 训练数据影响力
关键词: 训练数据影响力, 示例解释, 选择相关性, 梯度重构, 冗余消除

一句话总结¶

本文提出选择相关性分数（Selection Relevance Score），一种无需重训练的指标来评估训练样本子集作为示例解释的质量，并证明常见的"选最高影响力"策略常不如随机选择，进而提出平衡影响力与代表性的新策略。

研究背景与动机¶

领域现状：训练数据影响力估计方法（如影响函数）可量化每个训练文档对模型输出的贡献，是示例解释的有前景的信息源。但人类无法处理数千个文档，实际中只能选择少量训练样本作为解释。

现有痛点：(1) 选择最高影响力的 k 个样本作为解释是当前默认策略，但高影响力样本往往是全局异常值（如标注错误的数据），不一定与当前测试实例最相关；(2) 最高影响力样本之间高度冗余，严格选择可能收益递减；(3) 现有评估要么在嵌入空间操作（而排序在梯度空间），要么依赖类标签（不适用于生成任务），要么需要重训练（对 LLM 不可行）。

核心矛盾：影响力估计方法为每个训练样本生成独立的影响力分数，但作为解释时需要考虑样本之间的互补性和冗余性——一组好的解释样本应该共同覆盖模型决策的关键方面。

本文目标：(1) 提出评估选择质量的无重训练指标；(2) 揭示常见选择策略的不足；(3) 设计更好的选择策略。

切入角度：将示例解释视为梯度重构任务——好的解释样本应该能用其梯度的线性组合重构测试实例的梯度。

核心 idea：选择相关性 = 选中样本的梯度重构测试实例梯度的能力，高质量解释集应最大化重构精度。

方法详解¶

整体框架¶

将选择质量评估形式化为梯度重构问题：给定测试实例的损失梯度 \(\nabla\mathcal{L}'\) 和 k 个选中训练样本的梯度矩阵 \(A\)，计算最优线性组合 \(\hat{\nabla\mathcal{L}}' = At\) 的重构误差。选择相关性分数 \(\xi^{SR}\) 为原始梯度范数与重构误差的比值（以 dB 表示）。

关键设计¶

选择相关性分数（Selection Relevance Score）:
- 功能：量化选中训练样本集作为解释的综合质量
- 核心思路：\(\xi^{SR} = \frac{\mathbb{E}[\|G(\omega)\|^2]}{\mathbb{E}[\|G(\omega) - At_\omega\|^2]}\)，即期望梯度平方范数与期望重构误差平方范数的比值。值 >0 dB 表示选中样本提供了有用信息，<0 dB 表示不如零向量基线
- 设计动机：梯度空间中的重构能力直接反映了训练样本对模型决策的解释力度；考虑样本组合而非独立评分
约束投影（Constrained Projection）:
- 功能：确保线性组合系数满足解释语义
- 核心思路：对系数 \(t\) 施加非负性约束（防止不相关样本通过抵消获得权重）和归一化约束（\(\sum t = 1\)，使 \(t\) 可解释为相对重要性）。先计算无约束最小二乘解，再投影到单位单纯形
- 设计动机：无约束的最小二乘可能产生负系数，意味着某些"解释"样本实际上与预测相矛盾
平衡影响力与代表性的选择策略:
- 功能：替代朴素的"选最高影响力"策略
- 核心思路：在选择过程中同时考虑影响力分数和样本之间的多样性/代表性，避免冗余选择和全局异常值主导
- 设计动机：实验证明朴素的 top-k 选择常不如随机选择，因为全局异常值和冗余信息降低了解释质量

损失函数 / 训练策略¶

本文不涉及模型训练。选择相关性分数通过解析方法计算（最小二乘+单纯形投影），无需梯度更新。验证实验通过微调（fine-tuning）对比来确认分数的有效性。

实验关键数据¶

主实验¶

不同选择策略的选择相关性分数（dB，越高越好）

选择策略	k=1	k=5	k=10	k=25
随机选择	基线	基线	基线	基线
Top-k（最高影响力）	< 随机	< 随机	≈ 随机	> 随机
平衡策略（本文）	> 随机	> 随机	> 随机	> 随机

消融实验¶

影响力估计方法	与 Top-k 结合效果	与平衡策略结合效果
影响函数	差（全局异常值多）	显著提升
TracIn	中等	提升
TRAK	较好	进一步提升

关键发现¶

Top-k 选择策略在小预算（k≤10）下常不如随机选择——全局异常值和冗余是主因
选择相关性分数与微调验证指标高度相关，证明其作为代理评估指标的有效性
不同影响力估计方法对选择质量有显著影响：TRAK 比影响函数更适合选择任务
平衡策略在所有预算大小和估计方法组合下均优于 Top-k 和随机选择

亮点与洞察¶

揭示了一个被忽视的重要问题：示例解释的质量不仅取决于影响力估计的准确性，更取决于选择策略
"Top-k 不如随机"的发现挑战了领域内的默认假设
选择相关性分数提供了首个无重训练、任务无关的选择质量评估工具

局限与展望¶

梯度重构作为解释质量的代理可能不完全捕捉用户的实际需求
约束投影（非负+归一化）可能排除了某些有效的重构方案
在大规模 LLM 上的梯度计算仍然昂贵
仅在分类任务上验证，生成任务上的效果待确认

评分¶

新颖性: ⭐⭐⭐⭐ 梯度重构视角和选择相关性分数是新颖的评估工具
实验充分度: ⭐⭐⭐⭐ 多种影响力方法×选择策略×预算大小的系统评估
写作质量: ⭐⭐⭐⭐⭐ 形式化严谨，动机清晰，分析深入
价值: ⭐⭐⭐⭐ 为示例解释领域提供了重要的评估工具和实践建议