L2GTX: From Local to Global Time Series Explanations¶

会议: CVPR 2026
arXiv: 2603.13065
代码: 无
领域: 可解释AI / 时间序列分类
关键词: 时间序列解释, 局部到全局聚合, 模型无关XAI, 参数化事件原语, 代表性实例选择

一句话总结¶

提出 L2GTX——完全模型无关的局部到全局时间序列解释方法，以参数化事件原语(递增/递减趋势、局部极值)为解释单元，经层次聚类合并、贪心预算选择和属性统计聚合，在 6 个 UCR 数据集上生成紧凑忠实的类级全局解释(FCN上ECG200 GF=0.792)。

研究背景与动机¶

领域现状：深度学习在时间序列分类（金融、传感器、医疗 ECG）取得高精度，但作为黑盒缺乏可解释性，不利于信任建立和法规合规。

现有痛点：(1) LIME/SHAP 等图像/表格 XAI 方法将时间步视为独立特征，忽略时间依赖性；(2) 时间序列的全局解释合成几乎未被研究；(3) 已有少数全局方法（基于 CAM/LRP）依赖特定架构，缺乏通用性。

核心矛盾：时间序列事件的时间位置、持续时间、幅值跨实例变化大，直接聚合局部解释会产生大量冗余且丢失时间结构信息。

本文目标 为任意黑盒时间序列分类器生成类级全局解释，同时保持忠实度和紧凑性。

切入角度：以参数化时间事件原语(PEP)为语义单元，通过层次聚类合并+贪心选择+属性统计实现结构化的局部到全局聚合。

核心 idea：用"增量趋势/减量趋势/局部极值"等事件原语替代时间步归因，赋予时间序列解释以行为语义。

方法详解¶

整体框架¶

五步流水线：输入每类 \(n_{inst}\) 个实例 → Step1 LOMATCE 生成局部解释(事件原语+重要性) → Step2 跨实例层次聚类合并相似事件簇，构建实例-簇矩阵 \(\mathbf{M}\) → Step3 计算全局簇重要性 \(I_j = \sqrt{\sum_i |M_{i,j}|}\) → Step4 贪心选择 B 个代表实例最大化覆盖 → Step5 聚合事件属性统计(均值±标准差)输出类级全局解释。

关键设计¶

LOMATCE 参数化事件原语(Step1)：对每实例构建 S 个扰动样本邻域，提取四类 PEP——递增段 \((start\_time, duration, avg\_gradient)\)、递减段、局部最大值 \((time, value)\)、局部最小值。用 K-means 聚类(轮廓法定 K)构建事件矩阵 \(\mathbf{Z} \in \mathbb{R}^{S \times K}\)，训练加权 Ridge 回归代理获得各簇重要性 \(\hat{\beta}\)，取 top-n 簇。核心动机：以"事件行为"而非"时间步"为解释单元，保留时间结构语义——不只说"哪里重要"，还说"什么行为重要"。
自适应层次聚类合并(Step2)：按 PEP 类型对所有实例聚类质心做凝聚层次聚类(欧氏距离)。用户设定合并百分位 \(p\) 确定切割距离 \(\tau = \text{percentile}_p(\{d_r\})\)。\(p\) 越大簇越少越紧凑，合并后 \(M_{i,j} = \sum_{C_{i,k} \in G_j} I(C_{i,k})\)。设计动机：跨实例相似事件存在自然冗余，需要统一表示以便全局推理。
贪心预算选择(Step4)：给定预算 B，贪心最大化对未覆盖高重要性簇的边际增益：\(i^* = \arg\max_{i \notin S} \sum_j I_j \cdot \mathbf{1}\{M_{i,j} > 0 \wedge c_j = 0\}\)。借鉴 SP-LIME 的子模优化思路但适配到时间序列事件簇，确保所选实例多样且代表性强。

损失函数 / 训练策略¶

L2GTX 是后验解释方法，不修改分类器。核心评估指标为全局忠实度(GF)——选定 B 个代表实例的局部代理 R² 均值。黑盒分类器(FCN / LSTM-FCN)独立训练 100 次随机 split，L2GTX 用 3 个种子取宏平均及 95% 置信区间。

实验关键数据¶

主实验 (FCN 模型, 全局忠实度 GF)¶

数据集	p=25	p=50	p=75	p=95
ECG200	0.784±0.015	0.788±0.013	0.780±0.026	0.792±0.014
GunPoint	0.593±0.007	0.599±0.019	0.601±0.007	0.597±0.011
Coffee	0.683±0.010	0.678±0.006	0.678±0.005	0.678±0.015
FordA	0.674±0.021	0.672±0.029	0.673±0.021	0.672±0.028
FordB	0.675±0.008	0.679±0.034	0.673±0.006	0.673±0.029
CBF	0.625±0.018	0.626±0.011	0.633±0.016	0.625±0.008

消融实验 (LSTM-FCN 模型, GF)¶

数据集	p=25	p=50	p=75	p=95
ECG200	0.828±0.010	0.832±0.013	0.829±0.021	0.831±0.007
GunPoint	0.617±0.074	0.619±0.067	0.588±0.086	0.638±0.011
Coffee	0.617±0.008	0.609±0.004	0.616±0.036	0.608±0.003
FordA	0.618±0.028	0.621±0.015	0.614±0.039	0.627±0.035
FordB	0.661±0.021	0.656±0.039	0.651±0.050	0.655±0.027
CBF	0.519±0.020	0.508±0.025	0.519±0.033	0.502±0.015

关键发现¶

GF 对合并粒度高度稳定：p 从 25→95 时 GF 变化极小(置信区间高度重叠)，说明解释空间可大幅压缩而不损失忠实度
全局簇数随 p 单调递减但 GF 不降：冗余簇可安全合并
跨架构一致性：FCN 和 LSTM-FCN 在相同数据集上的解释结构高度一致(如 ECG200 的 Normal vs Infarction 区分区域相似)
领域知识对齐：ECG200 Infarction 类以局部极大值为标志——与心肌梗死的显著偏转临床知识一致；Coffee Robusta 类以高强度光谱峰为特征

亮点与洞察¶

以参数化事件原语为解释单元——不仅说"第 30 步重要"，还说"第 25-40 步有递增趋势"，语义可解释性质变
从局部到全局的聚合流程完整且原则化：聚类合并→重要性估计→预算选择→属性统计
完全模型无关，适用于任意黑盒时间序列分类器
可调节的合并百分位 p 为用户提供从细粒度到紧凑的解释粒度控制

局限与展望¶

仅验证单变量时间序列：未扩展到多变量场景(多通道传感器/EEG)，实际应用受限
GF 上界有限：GunPoint 约 0.6，反映 Ridge 代理模型本身的近似局限
计算开销：LOMATCE 事件聚类是瓶颈，长序列或邻域大时开销高
缺乏用户实验：无人类专家评估解释的主观有用性

评分¶

⭐⭐⭐ (3/5)

理由：研究问题(时间序列全局解释)有明确价值，方法流程完整且原则化，事件原语设计有语义意义。但(1)各组件独立看不新(增量贡献)，(2)仅 UCR 小数据集验证，(3)GF 绝对值不高(部分 0.5-0.6)，(4)缺人类评估。适合 XAI 细分方向读者。