跳转至

L2GTX: From Local to Global Time Series Explanations

会议: CVPR 2026
arXiv: 2603.13065
代码: 无
领域: 人体理解 / 可解释AI
关键词: 时间序列可解释性, 全局解释, 参数化事件原语, 模型无关, 局部到全局聚合

一句话总结

L2GTX 提出一种完全模型无关的局部到全局解释方法,通过从 LOMATCE 局部解释中提取参数化时间事件原语(趋势/极值),跨实例合并冗余聚类并以子模优化选取代表性实例,最终聚合为简洁的类级别全局解释,在6个时序分类数据集上保持稳定的全局忠实度。

研究背景与动机

  1. 领域现状:深度学习在时间序列分类中取得了很高的准确率,广泛应用于金融、传感器监控和医疗等领域。然而这些模型本质上是黑盒,给定输入序列后直接输出预测,缺乏对决策依据的可解释性。

  2. 现有痛点:现有 XAI 方法面临三个关键局限:(i) 为图像和表格数据设计的模型无关方法(如 LIME/SHAP)难以直接扩展到时间序列,因为时序数据具有强时间依赖性和非独立观测特性;(ii) 时间序列的全局解释合成研究严重不足,大多数方法只提供局部解释(标记某些时间步或子序列对单个预测的重要性);(iii) 少数已有的全局方法通常绑定特定模型架构(如依赖 CAM 或 LRP),无法实现架构中立的可解释性。

  3. 核心矛盾:局部解释只能说明单个实例的预测依据,无法揭示模型在类级别层面的系统性决策行为。而直接从模型内部提取全局特征又受限于特定架构。需要一种既不依赖模型内部结构、又能从局部时间模式合成类级别全局理解的通用方法。

  4. 本文要解决什么? (a) 如何在不访问模型内部的情况下获得高质量局部时序解释?(b) 如何跨实例合并相似的时间事件以减少冗余?(c) 如何在有限预算下选择最具代表性的实例?(d) 如何将局部事件聚合为简洁的类级别全局解释?

  5. 切入角度:作者观察到 LOMATCE 局部解释已经以参数化事件原语(PEP)的形式提供了语义丰富的局部解释——描述"增趋势"、"减趋势"、"极大值"、"极小值"等时间行为。这些原语比原始时间步重要性更具人类可解读性,且可以跨实例进行结构化比较和合并。

  6. 核心 idea 一句话:通过层次聚类合并跨实例的参数化事件原语,并以子模优化选择最大化覆盖度的代表性实例,将局部事件聚合为类级别全局时序解释。

方法详解

整体框架

L2GTX 的输入是一个训练好的黑盒时序分类模型 \(f\) 和数据集 \(\mathcal{X}\),输出是每个类别的全局解释(以参数化事件原语的统计摘要形式呈现)。整个流程包含五个顺序步骤:

  1. 局部归因:对采样实例用 LOMATCE 生成局部解释(PEP 聚类 + 重要性分数)
  2. 聚类合并:层次聚类合并不同实例中相似的 PEP 聚类
  3. 全局重要性:构建实例-聚类矩阵,计算每个全局聚类的重要性
  4. 实例选择:在预算约束下,贪心选择覆盖最重要聚类的代表性实例
  5. 事件聚合:汇总所选实例的事件属性,生成类级别全局解释

为确保类平衡,L2GTX 对小/中型数据集每类采样 \(n_{\text{inst}}=15\) 个实例,对大型数据集采样 \(n_{\text{inst}}=30\) 个实例。

关键设计

  1. LOMATCE 局部归因(Step 1):
  2. 做什么:为每个实例 \(X_i\) 生成参数化事件原语(PEP)形式的局部解释
  3. 核心思路:对每个实例构造 \(S\) 个扰动样本的局部邻域(通过随机扰动时间段),从所有邻域样本中提取四类 PEP——递增趋势(参数: start_time, duration, avg_gradient)、递减趋势(同参数)、局部极大值(参数: time, value)、局部极小值(同参数)。对每种 PEP 类型独立进行 K-means 聚类(\(K\) 由轮廓系数自动确定),构建事件矩阵 \(\mathbf{Z}_i \in \mathbb{R}^{S \times K}\),训练加权岭回归代理模型得到聚类重要性 \(\hat{\beta}_i \in \mathbb{R}^K\),保留 top-\(n\) 聚类
  4. 设计动机:用参数化事件原语代替原始时间步重要性,提供语义层面的"为什么"——描述的是趋势、极值等人类可理解的时间行为,而非仅标注"哪里重要"

  5. 层次聚类合并与实例-聚类矩阵(Step 2-3):

  6. 做什么:跨实例合并相似的 PEP 聚类,构建全局视角
  7. 核心思路:对同类型 PEP 的所有聚类质心做凝聚层次聚类,按用户设定的合并百分位 \(p\) 计算切割距离得到全局聚类 \(\mathcal{G}_e\)。构建实例-聚类矩阵 \(\mathbf{M} \in \mathbb{R}^{N \times |\mathcal{G}|}\),其中 \(M_{i,j} = \sum_{C_{i,k} \in G_j} I(C_{i,k})\)。全局重要性采用 SP-LIME 策略:\(I_j = \sqrt{\sum_{i=1}^N |M_{i,j}|}\)
  8. 设计动机:不同实例的局部 PEP 聚类各不相同,需要"对齐"才能做跨实例比较。层次聚类提供了灵活的合并粒度控制——\(p\) 越大,全局聚类越少越紧凑

  9. 子模优化实例选择(Step 4):

  10. 做什么:在预算 \(B\) 约束下选择最有代表性的实例集合
  11. 核心思路:贪心选择使未覆盖聚类的加权覆盖最大化的实例。每次选择后更新覆盖向量,确保选出的实例集最大化覆盖最重要的全局聚类
  12. 设计动机:直接聚合所有实例会引入冗余和噪声。受 SP-LIME 启发,用子模优化选择少量实例即可覆盖最重要的全局聚类,保证解释的简洁性和代表性

  13. 事件聚合与全局解释生成(Step 5):

  14. 做什么:将所选实例的 PEP 事件汇总为类级别统计摘要
  15. 核心思路:移除局部聚类层级,将所有事件直接归入对应全局聚类。对每个事件属性计算均值和标准差。趋势类事件用 (start_time, duration) 的统计描述时间范围,极值类事件用 (time, value) 的统计描述发生位置和幅度

损失函数 / 训练策略

L2GTX 本身是后处理解释方法,不涉及端到端训练。核心评估指标是全局忠实度(GF),定义为所选实例的平均局部代理保真度:

\[\text{GF}(\mathcal{S}) = \frac{1}{|\mathcal{S}|} \sum_{x_i \in \mathcal{S}} F(x_i)\]

其中 \(F(x_i)\) 是实例 \(x_i\) 的局部岭回归代理的 \(R^2\) 分数。所有实验用3个随机种子重复,报告宏平均 GF 和 95% 置信区间。

实验关键数据

主实验

在6个 UCR 时序数据集上,使用 FCN 和 LSTM-FCN 两种架构:

数据集 模型 GF (p=25) GF (p=50) GF (p=75) GF (p=95)
ECG200 FCN 0.784 0.788 0.780 0.792
GunPoint FCN 0.593 0.599 0.601 0.597
Coffee FCN 0.683 0.678 0.678 0.678
FordA FCN 0.674 0.672 0.673 0.672
FordB FCN 0.675 0.679 0.673 0.673
CBF FCN 0.625 0.626 0.633 0.625
ECG200 LSTM-FCN 0.828 0.832 0.829 0.831
FordB LSTM-FCN 0.661 0.656 0.651 0.655
CBF LSTM-FCN 0.519 0.508 0.519 0.502

消融实验

配置 关键指标 说明
合并百分位 p=25到95 GF 稳定,CI 重叠 强压缩不牺牲忠实度
p 增大 全局聚类数单调减少 更紧凑的解释空间
FCN vs LSTM-FCN 两者在相同区域高重要性 方法捕获架构无关的决策线索
ECG200 案例分析 Normal vs Infarction 与医学一致 梗死信号以少量显著偏转主导
Coffee 案例分析 Robusta 高幅极大值 vs Arabica 低幅 与咖啡光谱学文献一致

关键发现

  • 聚类合并不损失忠实度:p 从25增到95时 GF 保持稳定且置信区间重叠
  • 跨架构一致性:FCN 和 LSTM-FCN 产生结构一致的解释,共享决策时间线索
  • 案例与领域知识契合:ECG200 梗死类以显著偏转为主、Coffee 中 Robusta 以高强度极大值为主
  • CBF 上 LSTM-FCN 的 GF 偏低(约0.5),可能反映局部线性代理的近似局限

亮点与洞察

  • 首个完全模型无关的时序局部到全局解释方法。不依赖模型内部结构,适用于任何黑盒时序分类器。将"模型无关"贯穿到全局层面
  • 参数化事件原语提供语义解释。用趋势和极值描述时序模式,比"第t步重要"更有意义。天然支持跨实例对齐和领域语义映射
  • 贪心子模优化兼顾覆盖度与预算。在少量实例中最大化覆盖最重要全局聚类
  • 合并百分位提供可调粒度。用户可通过单一参数 p 控制解释紧凑度,且忠实度稳定

局限性 / 可改进方向

  • 计算开销:LOMATCE 事件聚类是计算瓶颈,长时间序列时尤其明显
  • 仅支持单变量时序:多变量场景需处理跨通道交互
  • 缺乏人类中心评估:没有领域专家主观评估
  • 部分数据集 GF 偏低:CBF 约0.5、GunPoint 约0.6,受限于局部线性代理
  • 缺乏与其他全局解释方法的定量对比

相关工作与启发

  • vs SP-LIME: 选择代表性实例但不聚合。L2GTX 增加跨实例合并和全局统计聚合
  • vs GLocalX: 为表格数据做局部到全局聚合。L2GTX 适配到时序参数化事件结构
  • vs LOMATCE: L2GTX 的局部解释基础。贡献在于系统化的局部到全局路径
  • vs CAM/LRP 系列: 依赖模型内部表示,架构特异。L2GTX 更通用但只能间接推断

评分

  • 新颖性: ⭐⭐⭐ 局部到全局聚合在时序 XAI 中是新尝试,但单个组件缺乏方法学突破
  • 实验充分度: ⭐⭐⭐ 6数据集+2模型+多百分位,但缺乏与其他全局方法定量对比
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,公式完备,案例分析有说服力
  • 价值: ⭐⭐⭐ 填补时序全局可解释性空白,但应用场景论述不够深入