L2GTX: From Local to Global Time Series Explanations¶

会议: CVPR2025 (xAI-2026 / Springer proceedings)
arXiv: 2603.13065
代码: 待确认
领域: human_understanding
关键词: explainable AI, time series classification, global explanations, model-agnostic, event-based explanations

一句话总结¶

L2GTX 提出一种完全模型无关的时间序列分类全局解释方法，通过聚合 LOMATCE 产生的参数化时间事件原语（PEPs）构建类级全局解释，在六个基准数据集上保持稳定的全局忠实度（R²）。

研究背景与动机¶

深度学习模型在时间序列分类中取得高精度，但理解其类级决策行为仍然困难
图像和表格数据的 XAI 方法不能直接推广到时间序列，因为时间依赖性、变长事件和跨实例的模式位移
现有时间序列可解释性方法大多聚焦于局部解释（单个预测），全局解释方法稀缺
少数全局方法是模型特定的（依赖于 CAM、LRP 等），限制了架构无关的可解释性
LIME/SHAP 对时间序列的适配通常将时间步视为独立特征，忽略了时间依赖性
需要一种从局部到全局的聚合方法，能选择代表性实例并合成类级全局解释

方法详解¶

整体框架¶

L2GTX 五步流程：(1) LOMATCE 生成实例级局部解释 → (2) 跨实例合并相似事件簇 → (3) 计算全局簇重要性 → (4) 预算约束下选择代表性实例 → (5) 聚合事件生成类级全局解释。

关键设计¶

Step 1: LOMATCE 局部归因 - 对每个实例 \(X_i\)，构建 S 个扰动邻域样本 - 提取参数化事件原语（PEPs）：增长段、递减段（start_time, duration, avg_gradient）、局部极大/极小（time, value） - K-means 聚类 + silhouette 确定 K 值 - 加权线性代理（ridge regression）训练得到簇重要性 \(\hat{\beta}_i\) - 保留 top-n 重要簇作为局部解释

Step 2: 合并相似簇 + 构建实例-簇矩阵 - 同类型 PEP 的簇质心跨实例执行层次凝聚聚类（Euclidean 距离） - 用户指定合并百分位 \(p\) 控制截断距离 \(\tau\) - 构建实例-簇矩阵 \(\mathbf{M} \in \mathbb{R}^{N \times |\mathcal{G}|}\)，条目为合并后全局簇的重要性之和

Step 3: 全局簇重要性 - 借鉴 SP-LIME 的聚合策略：\(I_j = \sqrt{\sum_{i=1}^{N} |M_{i,j}|}\)

Step 4: 贪婪实例选择 - 给定预算 \(B\)，贪婪选择覆盖最多高重要性未覆盖簇的实例 - \(i^* = \arg\max_{i \notin S} \sum_j I_j \cdot \mathbf{1}\{M_{i,j} > 0 \land c_j = 0\}\) - 次模优化保证近似最优覆盖

Step 5: 事件聚合 - 将选中实例的事件展平到对应全局簇 - 计算每个属性的均值和标准差作为类级描述 - 趋势簇：start_time、duration 统计；极值簇：time、value 统计

损失函数/评估指标¶

全局忠实度（GF）= 选中实例局部代理 R² 的均值

实验关键数据¶

数据集¶

ECG200, GunPoint, Coffee, FordA, FordB, CBF（UCR Archive）

FCN 模型全局忠实度（GF）¶

数据集	p=25	p=50	p=75	p=95
ECG200	0.784	0.788	0.780	0.792
GunPoint	0.593	0.599	0.601	0.597
Coffee	0.683	0.678	0.678	0.678
FordA	0.674	0.672	0.673	0.672

LSTM-FCN 模型全局忠实度¶

数据集	p=25	p=50	p=75	p=95
ECG200	0.828	0.832	0.829	0.831
GunPoint	0.617	0.619	0.588	0.638
FordA	0.618	0.621	0.614	0.627

关键发现¶

GF 在不同合并百分位下保持稳定（置信区间重叠），说明 L2GTX 有效压缩解释空间而不牺牲忠实度
全局簇数随 p 值增大单调减少，但 GF 不降
事件原语（趋势、极值）比纯时间步重要性提供更丰富的语义解释

亮点与洞察¶

完全模型无关：不依赖模型内部结构，适用于任意黑盒时间序列分类器
事件原语语义丰富：用增长/递减趋势和局部极值描述时间行为，比"某个时间步重要"有意义得多
稳健压缩：不同合并阈值下 GF 稳定，说明全局簇捕获了共享的决策相关信号
预算控制：用户可调节实例选择预算 B 和合并百分位 p 控制解释粒度
可解释的类级摘要：生成人类可读的"何时发生什么类型的事件"描述

局限性¶

仅支持单变量时间序列，多变量扩展需要额外设计
GF 基于 R² 仅衡量线性代理忠实度，不直接反映对原模型的全局保真
实验数据集规模较小（最大 FordA 4921 样本），大规模验证缺乏
LOMATCE 局部解释的计算量随邻域采样数增长，扩展性待考
事件原语的表达能力受限于预定义类型（趋势、极值），可能遗漏频率等特征

评分¶

新颖性: ⭐⭐⭐ (思路合理但增量性创新)
实验充分度: ⭐⭐⭐ (数据集小，仅 UCR 基准)
写作质量: ⭐⭐⭐⭐ (逻辑清晰，算法描述完整)
价值: ⭐⭐⭐ (填补时间序列全局解释空白但应用场景有限)