Counterfactual Explanations for Aspect-Based Sentiment Analysis¶
会议: ACL 2025
领域: NLP理解
关键词: 反事实解释、方面情感分析、可解释AI、因果推理、情感极性翻转
一句话总结¶
本文提出一种为方面级情感分析(ABSA)生成反事实解释的方法,通过找到能翻转特定方面情感极性的最小文本修改,为 ABSA 模型的预测提供直观的因果解释。
研究背景与动机¶
领域现状:方面级情感分析(ABSA)旨在识别文本中对特定方面(aspect)的情感极性。例如在餐厅评论"食物很好但服务太慢"中,"食物"的情感是正面的,"服务"的情感是负面的。深度学习模型已在 ABSA 任务上取得很好的效果,但这些模型的预测缺乏可解释性——用户和开发者都难以理解模型为什么做出特定判断。
现有痛点:现有的 ABSA 可解释性方法主要是基于注意力权重或梯度的归因方法(如 attention visualization、Integrated Gradients),它们回答的是"哪些词对预测最重要"。但这种"重要性"解释不够直观——知道"太慢"对负面预测重要并不能告诉用户"如果改成什么,预测就会变"。反事实解释("如果评论说服务迅速,预测就会变成正面")更符合人类的因果推理习惯,但在 ABSA 场景中的反事实解释研究几乎是空白。
核心矛盾:ABSA 的反事实解释比通用文本情感分析更具挑战——修改需要只翻转目标方面的情感,同时保持其他方面的情感不变。例如在"食物好但服务差"中,生成针对"服务"的反事实不应改变对"食物"的评价。这种方面特异性约束使问题大大复杂化。
本文目标:设计一种面向 ABSA 的反事实解释生成方法,能够(1)找到能翻转目标方面情感的最小修改;(2)保持非目标方面的情感不变;(3)生成语言自然流畅的反事实文本。
切入角度:作者将 ABSA 反事实解释形式化为一个约束优化问题——最小化文本修改量,约束条件为目标方面情感翻转且非目标方面情感不变,同时保持语言流畅性。
核心 idea:通过方面感知的反事实搜索算法,在语义空间中寻找同时满足情感翻转、方面保持和最小修改三个约束的文本变体,为 ABSA 模型提供高质量的反事实解释。
方法详解¶
整体框架¶
输入为一段文本、一个目标方面和 ABSA 模型的预测,输出为修改后的反事实文本——该文本对目标方面的情感与原始预测相反,但在其他方面尽量保持不变。方法包括三个阶段:(1)候选编辑位置识别;(2)方面感知的替换生成;(3)搜索与排序。
关键设计¶
-
方面相关性感知的编辑位置识别:
- 功能:确定哪些 token 是与目标方面情感最相关的、应该被修改的位置
- 核心思路:使用两个信号的组合来确定编辑位置:(a)ABSA 模型对目标方面的注意力权重(标识与目标方面情感判断最相关的token);(b)方面-情感依赖路径(通过依存句法分析找到连接方面词和情感词的路径上的token)。两个信号的综合得分超过阈值的 token 被标为候选编辑位置。排除方面词本身不被修改(因为 ABSA 的解释应该告诉我们"什么评价导致了这个情感",而非改变方面本身)。
- 设计动机:不是所有 token 都与特定方面的情感相关,随机修改会产生不必要的改变。方面相关性感知确保只修改"和目标方面情感判断直接相关"的词。
-
约束满足的替换生成:
- 功能:为每个候选编辑位置生成满足多种约束的替换词
- 核心思路:使用 MLM(如 BERT)生成候选替换词,然后对每个候选进行约束检查:(a)情感翻转约束——替换后目标方面的情感预测应翻转;(b)方面保持约束——替换后非目标方面的情感预测不应改变;(c)语义最小修改约束——替换词与原词的语义距离不超过阈值 \(\delta\);(d)语言流畅性约束——替换后句子的困惑度不超过原句的 \(k\) 倍。通过逐一过滤不满足约束的候选,得到合格的替换方案。
- 设计动机:四个约束分别对应反事实解释的四个核心需求——有效性(能翻转预测)、特异性(只影响目标方面)、最小性(最小改动)和合理性(语言自然)。
-
束搜索与反事实排序:
- 功能:在多个候选反事实中选择最优方案
- 核心思路:当有多个编辑位置时,使用束搜索(beam search)探索不同的编辑组合。评分函数综合考虑修改量(越少越好)、语义保持度(原文和反事实的余弦相似度)和语言流畅度(困惑度)。最终选择综合得分最高的反事实作为输出。如果修改一个 token 即可翻转情感,优先选择单 token 修改。
- 设计动机:反事实解释的价值在于"最小必要修改"——修改越少,解释越清晰。束搜索在保证约束满足的前提下找到最精简的反事实。
损失函数 / 训练策略¶
本方法是推理时方法,不需要额外训练。使用的 ABSA 模型和 MLM 都是预训练或已训练好的模型。
实验关键数据¶
主实验¶
| 数据集 | 指标 | 本文方法 | MICE | Polyjuice | 随机替换 |
|---|---|---|---|---|---|
| SemEval-14 Laptop | 翻转率↑ | 91.3% | 84.6% | 78.2% | 52.1% |
| SemEval-14 Laptop | 方面保持率↑ | 88.7% | 72.4% | 65.8% | 71.2% |
| SemEval-14 Restaurant | 翻转率↑ | 93.1% | 86.3% | 80.5% | 55.4% |
| SemEval-14 Restaurant | 方面保持率↑ | 90.2% | 75.1% | 68.3% | 73.6% |
| SemEval-14 Restaurant | 平均编辑距离↓ | 2.1 | 3.8 | 4.5 | 2.3 |
| MAMS | 翻转率↑ | 87.6% | 79.8% | 73.1% | 48.3% |
消融实验¶
| 配置 | 翻转率 | 方面保持率 | 编辑距离 | 说明 |
|---|---|---|---|---|
| Full model | 91.3% | 88.7% | 2.1 | 完整方法 |
| w/o 方面保持约束 | 93.5% | 61.2% | 1.8 | 翻转率略升但保持率暴跌 |
| w/o 方面相关性 | 85.4% | 82.1% | 3.4 | 修改位置不精准 |
| w/o 流畅性约束 | 90.8% | 87.9% | 2.0 | 流畅度下降但指标接近 |
| 仅注意力定位 | 87.2% | 85.3% | 2.5 | 不用依存分析 |
关键发现¶
- 方面保持约束是区分本文方法与通用反事实方法的关键——没有它,方面保持率从 88.7% 暴跌至 61.2%
- 方面相关性感知的位置识别使编辑更精准——编辑距离从 3.4 降至 2.1,同时提升翻转率
- 在多方面交织的复杂句子中(MAMS数据集),本文方法的优势更为明显
亮点与洞察¶
- 方面保持约束的引入是核心创新——这是 ABSA 反事实与通用反事实的本质区别,也是实用价值所在
- 两路编辑位置识别(注意力+依存分析)充分利用了不同信号的互补性——注意力捕捉模型关注点,依存分析捕捉语言结构
- 方法生成的反事实可以直接用于 ABSA 模型的 debug 和改进——如果反事实不合理,说明模型可能学到了虚假相关
局限与展望¶
- 方法依赖目标 ABSA 模型的可微性(需要注意力权重),对黑盒模型不适用
- MLM 生成的替换范围受限于词汇表,对于需要短语级或句式级改变才能翻转情感的情况处理能力有限
- 反事实解释的人类可理解性评估不够充分,需要更多用户研究
- 未来可以探索基于 LLM 的生成式反事实方法,突破 token 级替换的局限
相关工作与启发¶
- vs MICE (Ross et al.): MICE 做通用反事实解释,不考虑方面保持;本文的方面感知约束使其在 ABSA 场景中更准确
- vs Polyjuice: Polyjuice 是通用反事实生成器,生成多样但不一定满足方面保持约束
- vs LIME for ABSA: LIME 提供特征重要性解释,本文提供反事实解释,两者互补——LIME 告诉你"what matters",反事实告诉你"what to change"
评分¶
- 新颖性: ⭐⭐⭐⭐ 将反事实解释引入ABSA并设计方面保持约束有创新性
- 实验充分度: ⭐⭐⭐⭐ 多数据集、详细消融,但缺少用户研究
- 写作质量: ⭐⭐⭐⭐ 问题形式化清晰,约束设计逻辑完整
- 价值: ⭐⭐⭐⭐ 对ABSA可解释性研究有实际推动作用
相关论文¶
- [ACL 2025] CoA-Reasoning: Explorations on Counterfactual Analysis in Physical Reasoning of LVLMs
- [ICLR 2026] Counterfactual Explanations on Robust Perceptual Geodesics
- [CVPR 2025] FG-VCE: Towards Fine-Grained Interpretability — Counterfactual Explanations for Misclassification with Saliency Partition
- [NeurIPS 2025] Few-Shot Knowledge Distillation of LLMs With Counterfactual Explanations
- [NeurIPS 2025] Performative Validity of Recourse Explanations