Using Shapley Interactions to Understand How Models Use Structure¶

会议: ACL 2025
arXiv: 2403.13106
代码: 无
领域: NLP 可解释性
关键词: Shapley交互, 句法结构, 多词表达, 语音模型, 非线性表征

一句话总结¶

利用Shapley Taylor交互指数（STII）跨模态（文本+语音）系统分析语言模型如何通过非线性交互编码句法结构、非组合语义和语音协同发音，发现自回归模型在句法编码上显著优于遮蔽模型。

研究背景与动机¶

领域现状¶

领域现状：领域现状: Shapley值等特征归因方法是理解神经网络的重要工具，但其假设特征独立线性可加，忽略了非线性交互。现有痛点: 已有Shapley交互工作仅限于LSTM等旧架构和简单分类任务，未扩展到现代Transformer和多模态场景。核心矛盾: 语言数据高度结构化，线性归因无法揭示模型如何编码结构中的依赖关系。本文目标: 验证STII能否跨模态捕获模型对语言结构的编码。切入角度: 将STII与三种已知语言结构（句法、语义组合性、语音协同发音）关联分析。核心idea: 结构上关联紧密的特征对应展现更强的非线性交互。

方法详解¶

整体框架¶

使用STII测量成对特征的非线性交互强度，在控制位置距离的条件下，检验句法距离、多词表达归属、音素类型等与STII的关系。

关键设计¶

STII计算与位置控制:
- 功能：计算成对特征的Shapley Taylor交互指数并控制位置效应
- 核心思路：\(\text{STII}_{A,B} = \frac{\| \phi(\emptyset) - \phi(A) - \phi(B) + \phi(A,B) \|_2}{\| \phi(\emptyset) \|_2}\)，用Monte Carlo排列采样近似。定义交互对距离 \(d_i\) 和预测距离 \(d_p\) 做分层控制
- 设计动机：STII测量联合影响超出独立之和的部分——正是非线性结构编码信号。分层控制消除位置效应混淆
三层结构关联分析:
- 功能：将STII分别与句法结构、非组合语义（MWE）、语音协同发音关联
- 核心思路：(a)句法：spaCy依存树+Spearman相关；(b)语义：AMALGrAM标注强/弱MWE，比较MWE内外STII差异；(c)语音：Wav2Vec 2.0+蒙特利尔对齐器，比较辅音-元音vs辅音-辅音边界STII
- 设计动机：三层面都验证通过则证明STII作为通用可解释性工具的价值
自回归vs遮蔽模型对比:
- 功能：GPT-2和BERT-base做相同实验对比
- 核心思路：相同STII分析下对比两种训练目标对句法的敏感性
- 设计动机：验证训练目标是否导致模型以不同方式编码句法关系

损失函数 / 训练策略¶

分析性研究，使用预训练模型直接分析，不涉及训练。输入截断到20 token，logit输出应用softmax确保可比。

实验关键数据¶

主实验¶

实验	GPT-2（自回归）	BERT（遮蔽）
位置效应	STII随距离单调递减 ✓	STII随距离单调递减 ✓
句法距离vs STII	所有显著cell均为负相关	正负混合不一致
强MWE交互增强	强MWE > 弱MWE > 一般对 ✓	强MWE > 弱MWE > 一般对 ✓

语音模型（Wav2Vec 2.0）：

比较	平均STII
辅音-元音边界	显著更高
辅音-辅音边界	较低
高响度辅音	更高（类似元音）
低响度辅音	较低

消融实验¶

位置效应基线：

距离类型	GPT-2	BERT
\(d_i\) ↑	STII单调↓	STII单调↓
\(d_p\) ↑	STII急剧↓	STII急剧↓

关键发现¶

自回归 vs 遮蔽差异：GPT-2中句法距离与STII一致负相关，BERT不一致——自回归训练目标更倾向学习句法
非组合语义体现为非线性交互：强MWE（如kick the bucket）交互强于弱MWE——且在两种模型中均成立
语音模型捕获协同发音：辅音-元音交互强于辅音-辅音，高响度辅音STII更高——完美印证语音学理论

亮点与洞察¶

跨模态统一分析：文本+语音、生成+识别——STII作为通用可解释性工具
揭示训练目标对结构编码的深层影响——不是性能差异，是编码机制差异
语音实验用IPA辅音图作为热力图layout——使语音学规律直观呈现

局限与展望¶

仅GPT-2/BERT-base等小模型，结论可能不适用于大模型
仅成对交互，未探索更高阶交互对应的层级结构
相关性而非因果分析

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统地将Shapley交互与多种语言结构关联
实验充分度: ⭐⭐⭐ 分析深入但模型规模有限
写作质量: ⭐⭐⭐⭐ 理论框架清晰，实验设计巧妙
价值: ⭐⭐⭐⭐ 为NLP可解释性提供了新方法论视角