Normalized AOPC: Fixing Misleading Faithfulness Metrics for Feature Attribution Explainability¶

会议: ACL 2025
arXiv: 2408.08137
代码: https://github.com/JoakimEdin/naopc
领域: NLP理解 / 可解释性
关键词: 特征归因, 可解释性, AOPC, 忠实度评估, 归一化指标

一句话总结¶

本文揭示了广泛使用的 AOPC（扰动曲线下面积）忠实度指标在跨模型比较时会产生误导性结论（因为不同模型的 AOPC 上下界差异巨大），提出 Normalized AOPC (NAOPC) 通过 min-max 归一化消除模型间的不可比性，实验表明归一化可以根本性地改变模型忠实度排名。

研究背景与动机¶

领域现状：特征归因方法（如 attention weights、gradient-based 等）用于解释深度神经网络的预测。忠实度（faithfulness）——归因是否准确反映模型内部机制——通常用 AOPC 的两个变体来衡量：comprehensiveness（去掉重要特征后输出变化大=好）和 sufficiency（去掉不重要特征后输出变化小=好）。
现有痛点：AOPC 的上下界在不同模型之间差异很大。作者发现一个模型的上界均值为 0.3，另一个为 0.8。这意味着即使两个模型用完美相同的归因方法，AOPC 分数也完全不同，导致跨模型比较毫无意义。
核心矛盾：AOPC 分数同时受两个因素影响——归因方法的忠实度（我们想测量的）和模型本身的特性（模型依赖多少特征、特征间交互模式）。这两个因素纠缠在一起。
本文要解决什么？ 消除模型特性对 AOPC 的干扰，使忠实度评估仅反映归因方法的质量。
切入角度：通过简洁的 toy example 证明了问题的存在——线性模型中依赖特征数量不同就会导致 AOPC 差异；非线性模型中 OR/AND 门的不同交互模式也会改变上下界。
核心 idea 一句话：对每个模型+输入组合计算 AOPC 的精确上下界，然后 min-max 归一化到 [0,1]。

方法详解¶

整体框架¶

NAOPC 在标准 AOPC 计算基础上增加了一步：先找到特定模型和输入的 AOPC 最小值（最优 sufficiency）和最大值（最优 comprehensiveness），然后用 min-max 归一化将 AOPC 分数标准化到 [0,1] 区间。提出两个版本：精确版（穷举）和近似版（beam search）。

关键设计¶

NAOPC 归一化公式:
做什么：将 AOPC 分数归一化到统一的可比尺度
核心思路：\(\text{NAOPC}(f, x, r) = \frac{\text{AOPC}(f, x, r) - \text{AOPC}_\downarrow(f, x)}{\text{AOPC}_\uparrow(f, x) - \text{AOPC}_\downarrow(f, x)}\)，其中 \(\text{AOPC}_\downarrow\) 和 \(\text{AOPC}_\uparrow\) 分别是该模型+输入的 AOPC 下界和上界
设计动机：归一化后所有模型的分数都在 [0,1] 区间内，0 表示最差（等同随机排序），1 表示最优（等同理想排序），消除了模型特性的干扰
NAOPC_exact（精确版）:
做什么：穷举搜索所有 \(N!\) 种特征排列，找到精确的上下界
核心思路：遍历所有可能的特征扰动顺序，计算每种顺序的 AOPC 分数，取最大和最小值作为上下界
设计动机：作为金标准验证近似方法的准确性。时间复杂度 \(O(N!)\)，仅适用于短序列（≤12 个特征）
NAOPC_beam（beam search 近似版）:
做什么：用 beam search 高效近似上下界
核心思路：维护 B 个候选特征排序，逐步扩展，每步保留得分最高/最低的前 B 个。时间复杂度 \(O(B \cdot N^2)\)，beam size 自适应选择（从 1 开始翻倍直到上下界稳定）
设计动机：使 NAOPC 可扩展到长序列。实验显示 beam search 与精确版的相关系数达 0.99+

损失函数 / 训练策略¶

NAOPC 是一个评估指标，不涉及训练。它是对已有模型的归因方法事后评估的修正。

实验关键数据¶

主实验¶

问题1：不同模型的 AOPC 上下界是否确实不同？

模型	数据集	AOPC 下界	AOPC 上界	范围
BERT	SST2	~0.03	~0.30	0.27
RoBERTa	SST2	~0.05	~0.65	0.60
LSTM	SST2	~0.10	~0.80	0.70

结论：上下界差异极大（范围从 0.27 到 0.70），证实了跨模型比较 AOPC 的不可靠性。

消融实验¶

问题2：NAOPC 是否改变模型忠实度排名？

指标	排名结论
原始 AOPC Comprehensiveness	对抗训练模型 > 标准模型（与之前研究结论一致）
NAOPC Comprehensiveness	标准模型 > 对抗训练模型（结论反转！）

问题3：NAOPC_beam 近似精度

指标	Pearson 相关系数
NAOPC_beam vs NAOPC_exact (Comp.)	0.994
NAOPC_beam vs NAOPC_exact (Suff.)	0.997

关键发现¶

AOPC 的上下界在不同模型间差异可达 2-3 倍，证实跨模型比较根本不可靠
归一化后多个之前研究的结论被推翻：对抗训练"提高忠实度"的结论不再成立
NAOPC_beam 与精确版相关系数 > 0.99，说明 beam search 近似足够准确
文中列举了 11 篇顶会论文使用跨模型 AOPC 比较，结论可能需要重新审视
模型依赖特征数量和特征交互模式（OR vs AND）是影响 AOPC 上下界的两个核心因素

亮点与洞察¶

Toy example 极具说服力：用 4 个简单函数（2 个线性、2 个逻辑门）就清楚地展示了 AOPC 的根本缺陷，让读者立刻理解问题严重性。这种用最小反例揭示问题的方式值得学习。
影响面广：11 篇顶会论文的结论可能需要重新审视，包括对抗训练提升模型可解释性这一被广泛接受的观点。
方法简单有效：min-max 归一化是最直观的解决方案，beam search 近似使其可实际应用。已发布为 PyPI 包，降低了采用门槛。
可迁移性：NAOPC 的思路可迁移到其他使用扰动曲线的评估场景，如视觉 saliency map 评估。

局限性 / 可改进方向¶

beam search 在极长序列上可能仍然偏慢，且近似质量依赖 beam size 选择
仅在分类任务上验证，生成任务的特征归因评估是否有类似问题未探讨
归一化假设上下界可被准确估计，但 beam search 可能低估上界或高估下界
对新型 LLM（GPT、Llama 等）的特征归因评估未覆盖

评分¶

新颖性: ⭐⭐⭐⭐ 问题发现有价值但解决方案（归一化）相对直接
实验充分度: ⭐⭐⭐⭐ 5个数据集4种模型，但缺少大模型场景验证
写作质量: ⭐⭐⭐⭐⭐ toy example 精彩，论证逻辑清晰
价值: ⭐⭐⭐⭐ 对可解释性评估社区有重要警示意义