跳转至

Normalized AOPC: Fixing Misleading Faithfulness Metrics for Feature Attribution Explainability

会议: ACL 2025
arXiv: 2408.08137
代码: https://github.com/JoakimEdin/naopc
领域: NLP理解 / 可解释性
关键词: 特征归因, 可解释性, AOPC, 忠实度评估, 归一化指标

一句话总结

本文揭示了广泛使用的 AOPC(扰动曲线下面积)忠实度指标在跨模型比较时会产生误导性结论(因为不同模型的 AOPC 上下界差异巨大),提出 Normalized AOPC (NAOPC) 通过 min-max 归一化消除模型间的不可比性,实验表明归一化可以根本性地改变模型忠实度排名。

研究背景与动机

  1. 领域现状:特征归因方法(如 attention weights、gradient-based 等)用于解释深度神经网络的预测。忠实度(faithfulness)——归因是否准确反映模型内部机制——通常用 AOPC 的两个变体来衡量:comprehensiveness(去掉重要特征后输出变化大=好)和 sufficiency(去掉不重要特征后输出变化小=好)。
  2. 现有痛点:AOPC 的上下界在不同模型之间差异很大。作者发现一个模型的上界均值为 0.3,另一个为 0.8。这意味着即使两个模型用完美相同的归因方法,AOPC 分数也完全不同,导致跨模型比较毫无意义。
  3. 核心矛盾:AOPC 分数同时受两个因素影响——归因方法的忠实度(我们想测量的)和模型本身的特性(模型依赖多少特征、特征间交互模式)。这两个因素纠缠在一起。
  4. 本文要解决什么? 消除模型特性对 AOPC 的干扰,使忠实度评估仅反映归因方法的质量。
  5. 切入角度:通过简洁的 toy example 证明了问题的存在——线性模型中依赖特征数量不同就会导致 AOPC 差异;非线性模型中 OR/AND 门的不同交互模式也会改变上下界。
  6. 核心 idea 一句话:对每个模型+输入组合计算 AOPC 的精确上下界,然后 min-max 归一化到 [0,1]。

方法详解

整体框架

NAOPC 在标准 AOPC 计算基础上增加了一步:先找到特定模型和输入的 AOPC 最小值(最优 sufficiency)和最大值(最优 comprehensiveness),然后用 min-max 归一化将 AOPC 分数标准化到 [0,1] 区间。提出两个版本:精确版(穷举)和近似版(beam search)。

关键设计

  1. NAOPC 归一化公式:
  2. 做什么:将 AOPC 分数归一化到统一的可比尺度
  3. 核心思路:\(\text{NAOPC}(f, x, r) = \frac{\text{AOPC}(f, x, r) - \text{AOPC}_\downarrow(f, x)}{\text{AOPC}_\uparrow(f, x) - \text{AOPC}_\downarrow(f, x)}\),其中 \(\text{AOPC}_\downarrow\)\(\text{AOPC}_\uparrow\) 分别是该模型+输入的 AOPC 下界和上界
  4. 设计动机:归一化后所有模型的分数都在 [0,1] 区间内,0 表示最差(等同随机排序),1 表示最优(等同理想排序),消除了模型特性的干扰

  5. NAOPC_exact(精确版):

  6. 做什么:穷举搜索所有 \(N!\) 种特征排列,找到精确的上下界
  7. 核心思路:遍历所有可能的特征扰动顺序,计算每种顺序的 AOPC 分数,取最大和最小值作为上下界
  8. 设计动机:作为金标准验证近似方法的准确性。时间复杂度 \(O(N!)\),仅适用于短序列(≤12 个特征)

  9. NAOPC_beam(beam search 近似版):

  10. 做什么:用 beam search 高效近似上下界
  11. 核心思路:维护 B 个候选特征排序,逐步扩展,每步保留得分最高/最低的前 B 个。时间复杂度 \(O(B \cdot N^2)\),beam size 自适应选择(从 1 开始翻倍直到上下界稳定)
  12. 设计动机:使 NAOPC 可扩展到长序列。实验显示 beam search 与精确版的相关系数达 0.99+

损失函数 / 训练策略

NAOPC 是一个评估指标,不涉及训练。它是对已有模型的归因方法事后评估的修正。

实验关键数据

主实验

问题1:不同模型的 AOPC 上下界是否确实不同?

模型 数据集 AOPC 下界 AOPC 上界 范围
BERT SST2 ~0.03 ~0.30 0.27
RoBERTa SST2 ~0.05 ~0.65 0.60
LSTM SST2 ~0.10 ~0.80 0.70

结论:上下界差异极大(范围从 0.27 到 0.70),证实了跨模型比较 AOPC 的不可靠性。

消融实验

问题2:NAOPC 是否改变模型忠实度排名?

指标 排名结论
原始 AOPC Comprehensiveness 对抗训练模型 > 标准模型(与之前研究结论一致)
NAOPC Comprehensiveness 标准模型 > 对抗训练模型(结论反转!)

问题3:NAOPC_beam 近似精度

指标 Pearson 相关系数
NAOPC_beam vs NAOPC_exact (Comp.) 0.994
NAOPC_beam vs NAOPC_exact (Suff.) 0.997

关键发现

  • AOPC 的上下界在不同模型间差异可达 2-3 倍,证实跨模型比较根本不可靠
  • 归一化后多个之前研究的结论被推翻:对抗训练"提高忠实度"的结论不再成立
  • NAOPC_beam 与精确版相关系数 > 0.99,说明 beam search 近似足够准确
  • 文中列举了 11 篇顶会论文使用跨模型 AOPC 比较,结论可能需要重新审视
  • 模型依赖特征数量和特征交互模式(OR vs AND)是影响 AOPC 上下界的两个核心因素

亮点与洞察

  • Toy example 极具说服力:用 4 个简单函数(2 个线性、2 个逻辑门)就清楚地展示了 AOPC 的根本缺陷,让读者立刻理解问题严重性。这种用最小反例揭示问题的方式值得学习。
  • 影响面广:11 篇顶会论文的结论可能需要重新审视,包括对抗训练提升模型可解释性这一被广泛接受的观点。
  • 方法简单有效:min-max 归一化是最直观的解决方案,beam search 近似使其可实际应用。已发布为 PyPI 包,降低了采用门槛。
  • 可迁移性:NAOPC 的思路可迁移到其他使用扰动曲线的评估场景,如视觉 saliency map 评估。

局限性 / 可改进方向

  • beam search 在极长序列上可能仍然偏慢,且近似质量依赖 beam size 选择
  • 仅在分类任务上验证,生成任务的特征归因评估是否有类似问题未探讨
  • 归一化假设上下界可被准确估计,但 beam search 可能低估上界或高估下界
  • 对新型 LLM(GPT、Llama 等)的特征归因评估未覆盖

相关工作与启发

  • vs 原始 AOPC (DeYoung et al. 2020): 原始 AOPC 忽略了模型间上下界差异,NAOPC 通过归一化修正了这一根本缺陷
  • vs 其他忠实度指标: 该问题是否存在于其他扰动类指标(如 deletion/insertion metrics)中值得探讨
  • 这篇论文提醒我们:在设计评估指标时,要仔细检查指标是否受到不相关因素的混淆

评分

  • 新颖性: ⭐⭐⭐⭐ 问题发现有价值但解决方案(归一化)相对直接
  • 实验充分度: ⭐⭐⭐⭐ 5个数据集4种模型,但缺少大模型场景验证
  • 写作质量: ⭐⭐⭐⭐⭐ toy example 精彩,论证逻辑清晰
  • 价值: ⭐⭐⭐⭐ 对可解释性评估社区有重要警示意义