L2GTX: From Local to Global Time Series Explanations¶
会议: CVPR 2026
arXiv: 2603.13065
代码: 无
领域: 人体理解 / 可解释AI
关键词: 时间序列可解释性, 全局解释, 参数化事件原语, 模型无关, 局部到全局聚合
一句话总结¶
L2GTX 提出一种完全模型无关的局部到全局解释方法,通过从 LOMATCE 局部解释中提取参数化时间事件原语(趋势/极值),跨实例合并冗余聚类并以子模优化选取代表性实例,最终聚合为简洁的类级别全局解释,在6个时序分类数据集上保持稳定的全局忠实度。
研究背景与动机¶
-
领域现状:深度学习在时间序列分类中取得了很高的准确率,广泛应用于金融、传感器监控和医疗等领域。然而这些模型本质上是黑盒,给定输入序列后直接输出预测,缺乏对决策依据的可解释性。
-
现有痛点:现有 XAI 方法面临三个关键局限:(i) 为图像和表格数据设计的模型无关方法(如 LIME/SHAP)难以直接扩展到时间序列,因为时序数据具有强时间依赖性和非独立观测特性;(ii) 时间序列的全局解释合成研究严重不足,大多数方法只提供局部解释(标记某些时间步或子序列对单个预测的重要性);(iii) 少数已有的全局方法通常绑定特定模型架构(如依赖 CAM 或 LRP),无法实现架构中立的可解释性。
-
核心矛盾:局部解释只能说明单个实例的预测依据,无法揭示模型在类级别层面的系统性决策行为。而直接从模型内部提取全局特征又受限于特定架构。需要一种既不依赖模型内部结构、又能从局部时间模式合成类级别全局理解的通用方法。
-
本文要解决什么? (a) 如何在不访问模型内部的情况下获得高质量局部时序解释?(b) 如何跨实例合并相似的时间事件以减少冗余?(c) 如何在有限预算下选择最具代表性的实例?(d) 如何将局部事件聚合为简洁的类级别全局解释?
-
切入角度:作者观察到 LOMATCE 局部解释已经以参数化事件原语(PEP)的形式提供了语义丰富的局部解释——描述"增趋势"、"减趋势"、"极大值"、"极小值"等时间行为。这些原语比原始时间步重要性更具人类可解读性,且可以跨实例进行结构化比较和合并。
-
核心 idea 一句话:通过层次聚类合并跨实例的参数化事件原语,并以子模优化选择最大化覆盖度的代表性实例,将局部事件聚合为类级别全局时序解释。
方法详解¶
整体框架¶
L2GTX 的输入是一个训练好的黑盒时序分类模型 \(f\) 和数据集 \(\mathcal{X}\),输出是每个类别的全局解释(以参数化事件原语的统计摘要形式呈现)。整个流程包含五个顺序步骤:
- 局部归因:对采样实例用 LOMATCE 生成局部解释(PEP 聚类 + 重要性分数)
- 聚类合并:层次聚类合并不同实例中相似的 PEP 聚类
- 全局重要性:构建实例-聚类矩阵,计算每个全局聚类的重要性
- 实例选择:在预算约束下,贪心选择覆盖最重要聚类的代表性实例
- 事件聚合:汇总所选实例的事件属性,生成类级别全局解释
为确保类平衡,L2GTX 对小/中型数据集每类采样 \(n_{\text{inst}}=15\) 个实例,对大型数据集采样 \(n_{\text{inst}}=30\) 个实例。
关键设计¶
- LOMATCE 局部归因(Step 1):
- 做什么:为每个实例 \(X_i\) 生成参数化事件原语(PEP)形式的局部解释
- 核心思路:对每个实例构造 \(S\) 个扰动样本的局部邻域(通过随机扰动时间段),从所有邻域样本中提取四类 PEP——递增趋势(参数: start_time, duration, avg_gradient)、递减趋势(同参数)、局部极大值(参数: time, value)、局部极小值(同参数)。对每种 PEP 类型独立进行 K-means 聚类(\(K\) 由轮廓系数自动确定),构建事件矩阵 \(\mathbf{Z}_i \in \mathbb{R}^{S \times K}\),训练加权岭回归代理模型得到聚类重要性 \(\hat{\beta}_i \in \mathbb{R}^K\),保留 top-\(n\) 聚类
-
设计动机:用参数化事件原语代替原始时间步重要性,提供语义层面的"为什么"——描述的是趋势、极值等人类可理解的时间行为,而非仅标注"哪里重要"
-
层次聚类合并与实例-聚类矩阵(Step 2-3):
- 做什么:跨实例合并相似的 PEP 聚类,构建全局视角
- 核心思路:对同类型 PEP 的所有聚类质心做凝聚层次聚类,按用户设定的合并百分位 \(p\) 计算切割距离得到全局聚类 \(\mathcal{G}_e\)。构建实例-聚类矩阵 \(\mathbf{M} \in \mathbb{R}^{N \times |\mathcal{G}|}\),其中 \(M_{i,j} = \sum_{C_{i,k} \in G_j} I(C_{i,k})\)。全局重要性采用 SP-LIME 策略:\(I_j = \sqrt{\sum_{i=1}^N |M_{i,j}|}\)
-
设计动机:不同实例的局部 PEP 聚类各不相同,需要"对齐"才能做跨实例比较。层次聚类提供了灵活的合并粒度控制——\(p\) 越大,全局聚类越少越紧凑
-
子模优化实例选择(Step 4):
- 做什么:在预算 \(B\) 约束下选择最有代表性的实例集合
- 核心思路:贪心选择使未覆盖聚类的加权覆盖最大化的实例。每次选择后更新覆盖向量,确保选出的实例集最大化覆盖最重要的全局聚类
-
设计动机:直接聚合所有实例会引入冗余和噪声。受 SP-LIME 启发,用子模优化选择少量实例即可覆盖最重要的全局聚类,保证解释的简洁性和代表性
-
事件聚合与全局解释生成(Step 5):
- 做什么:将所选实例的 PEP 事件汇总为类级别统计摘要
- 核心思路:移除局部聚类层级,将所有事件直接归入对应全局聚类。对每个事件属性计算均值和标准差。趋势类事件用 (start_time, duration) 的统计描述时间范围,极值类事件用 (time, value) 的统计描述发生位置和幅度
损失函数 / 训练策略¶
L2GTX 本身是后处理解释方法,不涉及端到端训练。核心评估指标是全局忠实度(GF),定义为所选实例的平均局部代理保真度:
其中 \(F(x_i)\) 是实例 \(x_i\) 的局部岭回归代理的 \(R^2\) 分数。所有实验用3个随机种子重复,报告宏平均 GF 和 95% 置信区间。
实验关键数据¶
主实验¶
在6个 UCR 时序数据集上,使用 FCN 和 LSTM-FCN 两种架构:
| 数据集 | 模型 | GF (p=25) | GF (p=50) | GF (p=75) | GF (p=95) |
|---|---|---|---|---|---|
| ECG200 | FCN | 0.784 | 0.788 | 0.780 | 0.792 |
| GunPoint | FCN | 0.593 | 0.599 | 0.601 | 0.597 |
| Coffee | FCN | 0.683 | 0.678 | 0.678 | 0.678 |
| FordA | FCN | 0.674 | 0.672 | 0.673 | 0.672 |
| FordB | FCN | 0.675 | 0.679 | 0.673 | 0.673 |
| CBF | FCN | 0.625 | 0.626 | 0.633 | 0.625 |
| ECG200 | LSTM-FCN | 0.828 | 0.832 | 0.829 | 0.831 |
| FordB | LSTM-FCN | 0.661 | 0.656 | 0.651 | 0.655 |
| CBF | LSTM-FCN | 0.519 | 0.508 | 0.519 | 0.502 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 合并百分位 p=25到95 | GF 稳定,CI 重叠 | 强压缩不牺牲忠实度 |
| p 增大 | 全局聚类数单调减少 | 更紧凑的解释空间 |
| FCN vs LSTM-FCN | 两者在相同区域高重要性 | 方法捕获架构无关的决策线索 |
| ECG200 案例分析 | Normal vs Infarction 与医学一致 | 梗死信号以少量显著偏转主导 |
| Coffee 案例分析 | Robusta 高幅极大值 vs Arabica 低幅 | 与咖啡光谱学文献一致 |
关键发现¶
- 聚类合并不损失忠实度:p 从25增到95时 GF 保持稳定且置信区间重叠
- 跨架构一致性:FCN 和 LSTM-FCN 产生结构一致的解释,共享决策时间线索
- 案例与领域知识契合:ECG200 梗死类以显著偏转为主、Coffee 中 Robusta 以高强度极大值为主
- CBF 上 LSTM-FCN 的 GF 偏低(约0.5),可能反映局部线性代理的近似局限
亮点与洞察¶
- 首个完全模型无关的时序局部到全局解释方法。不依赖模型内部结构,适用于任何黑盒时序分类器。将"模型无关"贯穿到全局层面
- 参数化事件原语提供语义解释。用趋势和极值描述时序模式,比"第t步重要"更有意义。天然支持跨实例对齐和领域语义映射
- 贪心子模优化兼顾覆盖度与预算。在少量实例中最大化覆盖最重要全局聚类
- 合并百分位提供可调粒度。用户可通过单一参数 p 控制解释紧凑度,且忠实度稳定
局限性 / 可改进方向¶
- 计算开销:LOMATCE 事件聚类是计算瓶颈,长时间序列时尤其明显
- 仅支持单变量时序:多变量场景需处理跨通道交互
- 缺乏人类中心评估:没有领域专家主观评估
- 部分数据集 GF 偏低:CBF 约0.5、GunPoint 约0.6,受限于局部线性代理
- 缺乏与其他全局解释方法的定量对比
相关工作与启发¶
- vs SP-LIME: 选择代表性实例但不聚合。L2GTX 增加跨实例合并和全局统计聚合
- vs GLocalX: 为表格数据做局部到全局聚合。L2GTX 适配到时序参数化事件结构
- vs LOMATCE: L2GTX 的局部解释基础。贡献在于系统化的局部到全局路径
- vs CAM/LRP 系列: 依赖模型内部表示,架构特异。L2GTX 更通用但只能间接推断
评分¶
- 新颖性: ⭐⭐⭐ 局部到全局聚合在时序 XAI 中是新尝试,但单个组件缺乏方法学突破
- 实验充分度: ⭐⭐⭐ 6数据集+2模型+多百分位,但缺乏与其他全局方法定量对比
- 写作质量: ⭐⭐⭐⭐ 结构清晰,公式完备,案例分析有说服力
- 价值: ⭐⭐⭐ 填补时序全局可解释性空白,但应用场景论述不够深入