L2GTX: From Local to Global Time Series Explanations¶
会议: CVPR 2026
arXiv: 2603.13065
代码: 无
领域: 可解释AI / 时间序列分类
关键词: 时间序列解释, 局部到全局聚合, 模型无关XAI, 参数化事件原语, 代表性实例选择
一句话总结¶
提出 L2GTX——完全模型无关的局部到全局时间序列解释方法,以参数化事件原语(递增/递减趋势、局部极值)为解释单元,经层次聚类合并、贪心预算选择和属性统计聚合,在 6 个 UCR 数据集上生成紧凑忠实的类级全局解释(FCN上ECG200 GF=0.792)。
研究背景与动机¶
领域现状:深度学习在时间序列分类(金融、传感器、医疗 ECG)取得高精度,但作为黑盒缺乏可解释性,不利于信任建立和法规合规。
现有痛点:(1) LIME/SHAP 等图像/表格 XAI 方法将时间步视为独立特征,忽略时间依赖性;(2) 时间序列的全局解释合成几乎未被研究;(3) 已有少数全局方法(基于 CAM/LRP)依赖特定架构,缺乏通用性。
核心矛盾:时间序列事件的时间位置、持续时间、幅值跨实例变化大,直接聚合局部解释会产生大量冗余且丢失时间结构信息。
本文目标 为任意黑盒时间序列分类器生成类级全局解释,同时保持忠实度和紧凑性。
切入角度:以参数化时间事件原语(PEP)为语义单元,通过层次聚类合并+贪心选择+属性统计实现结构化的局部到全局聚合。
核心 idea:用"增量趋势/减量趋势/局部极值"等事件原语替代时间步归因,赋予时间序列解释以行为语义。
方法详解¶
整体框架¶
五步流水线:输入每类 \(n_{inst}\) 个实例 → Step1 LOMATCE 生成局部解释(事件原语+重要性) → Step2 跨实例层次聚类合并相似事件簇,构建实例-簇矩阵 \(\mathbf{M}\) → Step3 计算全局簇重要性 \(I_j = \sqrt{\sum_i |M_{i,j}|}\) → Step4 贪心选择 B 个代表实例最大化覆盖 → Step5 聚合事件属性统计(均值±标准差)输出类级全局解释。
关键设计¶
-
LOMATCE 参数化事件原语(Step1):对每实例构建 S 个扰动样本邻域,提取四类 PEP——递增段 \((start\_time, duration, avg\_gradient)\)、递减段、局部最大值 \((time, value)\)、局部最小值。用 K-means 聚类(轮廓法定 K)构建事件矩阵 \(\mathbf{Z} \in \mathbb{R}^{S \times K}\),训练加权 Ridge 回归代理获得各簇重要性 \(\hat{\beta}\),取 top-n 簇。核心动机:以"事件行为"而非"时间步"为解释单元,保留时间结构语义——不只说"哪里重要",还说"什么行为重要"。
-
自适应层次聚类合并(Step2):按 PEP 类型对所有实例聚类质心做凝聚层次聚类(欧氏距离)。用户设定合并百分位 \(p\) 确定切割距离 \(\tau = \text{percentile}_p(\{d_r\})\)。\(p\) 越大簇越少越紧凑,合并后 \(M_{i,j} = \sum_{C_{i,k} \in G_j} I(C_{i,k})\)。设计动机:跨实例相似事件存在自然冗余,需要统一表示以便全局推理。
-
贪心预算选择(Step4):给定预算 B,贪心最大化对未覆盖高重要性簇的边际增益:\(i^* = \arg\max_{i \notin S} \sum_j I_j \cdot \mathbf{1}\{M_{i,j} > 0 \wedge c_j = 0\}\)。借鉴 SP-LIME 的子模优化思路但适配到时间序列事件簇,确保所选实例多样且代表性强。
损失函数 / 训练策略¶
L2GTX 是后验解释方法,不修改分类器。核心评估指标为全局忠实度(GF)——选定 B 个代表实例的局部代理 R² 均值。黑盒分类器(FCN / LSTM-FCN)独立训练 100 次随机 split,L2GTX 用 3 个种子取宏平均及 95% 置信区间。
实验关键数据¶
主实验 (FCN 模型, 全局忠实度 GF)¶
| 数据集 | p=25 | p=50 | p=75 | p=95 |
|---|---|---|---|---|
| ECG200 | 0.784±0.015 | 0.788±0.013 | 0.780±0.026 | 0.792±0.014 |
| GunPoint | 0.593±0.007 | 0.599±0.019 | 0.601±0.007 | 0.597±0.011 |
| Coffee | 0.683±0.010 | 0.678±0.006 | 0.678±0.005 | 0.678±0.015 |
| FordA | 0.674±0.021 | 0.672±0.029 | 0.673±0.021 | 0.672±0.028 |
| FordB | 0.675±0.008 | 0.679±0.034 | 0.673±0.006 | 0.673±0.029 |
| CBF | 0.625±0.018 | 0.626±0.011 | 0.633±0.016 | 0.625±0.008 |
消融实验 (LSTM-FCN 模型, GF)¶
| 数据集 | p=25 | p=50 | p=75 | p=95 |
|---|---|---|---|---|
| ECG200 | 0.828±0.010 | 0.832±0.013 | 0.829±0.021 | 0.831±0.007 |
| GunPoint | 0.617±0.074 | 0.619±0.067 | 0.588±0.086 | 0.638±0.011 |
| Coffee | 0.617±0.008 | 0.609±0.004 | 0.616±0.036 | 0.608±0.003 |
| FordA | 0.618±0.028 | 0.621±0.015 | 0.614±0.039 | 0.627±0.035 |
| FordB | 0.661±0.021 | 0.656±0.039 | 0.651±0.050 | 0.655±0.027 |
| CBF | 0.519±0.020 | 0.508±0.025 | 0.519±0.033 | 0.502±0.015 |
关键发现¶
- GF 对合并粒度高度稳定:p 从 25→95 时 GF 变化极小(置信区间高度重叠),说明解释空间可大幅压缩而不损失忠实度
- 全局簇数随 p 单调递减但 GF 不降:冗余簇可安全合并
- 跨架构一致性:FCN 和 LSTM-FCN 在相同数据集上的解释结构高度一致(如 ECG200 的 Normal vs Infarction 区分区域相似)
- 领域知识对齐:ECG200 Infarction 类以局部极大值为标志——与心肌梗死的显著偏转临床知识一致;Coffee Robusta 类以高强度光谱峰为特征
亮点与洞察¶
- 以参数化事件原语为解释单元——不仅说"第 30 步重要",还说"第 25-40 步有递增趋势",语义可解释性质变
- 从局部到全局的聚合流程完整且原则化:聚类合并→重要性估计→预算选择→属性统计
- 完全模型无关,适用于任意黑盒时间序列分类器
- 可调节的合并百分位 p 为用户提供从细粒度到紧凑的解释粒度控制
局限与展望¶
- 仅验证单变量时间序列:未扩展到多变量场景(多通道传感器/EEG),实际应用受限
- GF 上界有限:GunPoint 约 0.6,反映 Ridge 代理模型本身的近似局限
- 计算开销:LOMATCE 事件聚类是瓶颈,长序列或邻域大时开销高
- 缺乏用户实验:无人类专家评估解释的主观有用性
相关工作与启发¶
- vs SP-LIME:借鉴预算选择但 SP-LIME 面向表格数据、不聚合也不生成类级摘要
- vs GLocalX:在表格上聚合局部规则,但不处理时间结构
- vs LOMATCE:单实例解释基础;L2GTX 将其扩展为全局
- 启发:局部到全局聚合可迁移到视频分类可解释性——帧级归因聚合为类级全局视频解释
评分¶
⭐⭐⭐ (3/5)
理由:研究问题(时间序列全局解释)有明确价值,方法流程完整且原则化,事件原语设计有语义意义。但(1)各组件独立看不新(增量贡献),(2)仅 UCR 小数据集验证,(3)GF 绝对值不高(部分 0.5-0.6),(4)缺人类评估。适合 XAI 细分方向读者。
相关论文¶
- [CVPR 2026] QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models
- [CVPR 2026] ReMoGen: Real-time Human Interaction-to-Reaction Generation via Modular Learning from Diverse Data
- [CVPR 2026] HandX: Scaling Bimanual Motion and Interaction Generation
- [CVPR 2026] MatchED: Crisp Edge Detection Using End-to-End, Matching-based Supervision
- [CVPR 2026] Breaking the Tuning Barrier: Zero-Hyperparameters Yield Multi-Corner Analysis Via Learned Priors