L2GTX: From Local to Global Time Series Explanations¶
会议: CVPR2025 (xAI-2026 / Springer proceedings)
arXiv: 2603.13065
代码: 待确认
领域: human_understanding
关键词: explainable AI, time series classification, global explanations, model-agnostic, event-based explanations
一句话总结¶
L2GTX 提出一种完全模型无关的时间序列分类全局解释方法,通过聚合 LOMATCE 产生的参数化时间事件原语(PEPs)构建类级全局解释,在六个基准数据集上保持稳定的全局忠实度(R²)。
研究背景与动机¶
- 深度学习模型在时间序列分类中取得高精度,但理解其类级决策行为仍然困难
- 图像和表格数据的 XAI 方法不能直接推广到时间序列,因为时间依赖性、变长事件和跨实例的模式位移
- 现有时间序列可解释性方法大多聚焦于局部解释(单个预测),全局解释方法稀缺
- 少数全局方法是模型特定的(依赖于 CAM、LRP 等),限制了架构无关的可解释性
- LIME/SHAP 对时间序列的适配通常将时间步视为独立特征,忽略了时间依赖性
- 需要一种从局部到全局的聚合方法,能选择代表性实例并合成类级全局解释
方法详解¶
整体框架¶
L2GTX 五步流程:(1) LOMATCE 生成实例级局部解释 → (2) 跨实例合并相似事件簇 → (3) 计算全局簇重要性 → (4) 预算约束下选择代表性实例 → (5) 聚合事件生成类级全局解释。
关键设计¶
Step 1: LOMATCE 局部归因 - 对每个实例 \(X_i\),构建 S 个扰动邻域样本 - 提取参数化事件原语(PEPs):增长段、递减段(start_time, duration, avg_gradient)、局部极大/极小(time, value) - K-means 聚类 + silhouette 确定 K 值 - 加权线性代理(ridge regression)训练得到簇重要性 \(\hat{\beta}_i\) - 保留 top-n 重要簇作为局部解释
Step 2: 合并相似簇 + 构建实例-簇矩阵 - 同类型 PEP 的簇质心跨实例执行层次凝聚聚类(Euclidean 距离) - 用户指定合并百分位 \(p\) 控制截断距离 \(\tau\) - 构建实例-簇矩阵 \(\mathbf{M} \in \mathbb{R}^{N \times |\mathcal{G}|}\),条目为合并后全局簇的重要性之和
Step 3: 全局簇重要性 - 借鉴 SP-LIME 的聚合策略:\(I_j = \sqrt{\sum_{i=1}^{N} |M_{i,j}|}\)
Step 4: 贪婪实例选择 - 给定预算 \(B\),贪婪选择覆盖最多高重要性未覆盖簇的实例 - \(i^* = \arg\max_{i \notin S} \sum_j I_j \cdot \mathbf{1}\{M_{i,j} > 0 \land c_j = 0\}\) - 次模优化保证近似最优覆盖
Step 5: 事件聚合 - 将选中实例的事件展平到对应全局簇 - 计算每个属性的均值和标准差作为类级描述 - 趋势簇:start_time、duration 统计;极值簇:time、value 统计
损失函数/评估指标¶
- 全局忠实度(GF)= 选中实例局部代理 R² 的均值
实验关键数据¶
数据集¶
ECG200, GunPoint, Coffee, FordA, FordB, CBF(UCR Archive)
FCN 模型全局忠实度(GF)¶
| 数据集 | p=25 | p=50 | p=75 | p=95 |
|---|---|---|---|---|
| ECG200 | 0.784 | 0.788 | 0.780 | 0.792 |
| GunPoint | 0.593 | 0.599 | 0.601 | 0.597 |
| Coffee | 0.683 | 0.678 | 0.678 | 0.678 |
| FordA | 0.674 | 0.672 | 0.673 | 0.672 |
LSTM-FCN 模型全局忠实度¶
| 数据集 | p=25 | p=50 | p=75 | p=95 |
|---|---|---|---|---|
| ECG200 | 0.828 | 0.832 | 0.829 | 0.831 |
| GunPoint | 0.617 | 0.619 | 0.588 | 0.638 |
| FordA | 0.618 | 0.621 | 0.614 | 0.627 |
关键发现¶
- GF 在不同合并百分位下保持稳定(置信区间重叠),说明 L2GTX 有效压缩解释空间而不牺牲忠实度
- 全局簇数随 p 值增大单调减少,但 GF 不降
- 事件原语(趋势、极值)比纯时间步重要性提供更丰富的语义解释
亮点与洞察¶
- 完全模型无关:不依赖模型内部结构,适用于任意黑盒时间序列分类器
- 事件原语语义丰富:用增长/递减趋势和局部极值描述时间行为,比"某个时间步重要"有意义得多
- 稳健压缩:不同合并阈值下 GF 稳定,说明全局簇捕获了共享的决策相关信号
- 预算控制:用户可调节实例选择预算 B 和合并百分位 p 控制解释粒度
- 可解释的类级摘要:生成人类可读的"何时发生什么类型的事件"描述
局限性¶
- 仅支持单变量时间序列,多变量扩展需要额外设计
- GF 基于 R² 仅衡量线性代理忠实度,不直接反映对原模型的全局保真
- 实验数据集规模较小(最大 FordA 4921 样本),大规模验证缺乏
- LOMATCE 局部解释的计算量随邻域采样数增长,扩展性待考
- 事件原语的表达能力受限于预定义类型(趋势、极值),可能遗漏频率等特征
相关工作与启发¶
- 与 SP-LIME 在选择代表性实例策略上相关,但 L2GTX 增加了时间序列特定的事件聚合
- 与 GLocalX(表格数据全局解释聚合)类似思路但面向时间序列
- 事件原语来自 Kadous 的参数化事件框架,适合人类对时间序列的直觉理解
- 可启发多变量时间序列和其他序列数据的全局可解释性研究
评分¶
- 新颖性: ⭐⭐⭐ (思路合理但增量性创新)
- 实验充分度: ⭐⭐⭐ (数据集小,仅 UCR 基准)
- 写作质量: ⭐⭐⭐⭐ (逻辑清晰,算法描述完整)
- 价值: ⭐⭐⭐ (填补时间序列全局解释空白但应用场景有限)