L2GTX: From Local to Global Time Series Explanations¶

会议: CVPR 2026
arXiv: 2603.13065
代码: 无（未提供）
领域: 可解释AI / 时间序列分类
关键词: [时间序列解释, 局部到全局聚合, 模型无关XAI, 参数化事件原语, 代表性实例选择]

一句话总结¶

提出L2GTX——一种完全模型无关的方法，通过LOMATCE提取参数化时间事件原语的局部解释，再经层次聚类合并、贪心预算选择和事件聚合，生成紧凑且忠实的类级全局时间序列解释，在6个UCR数据集上全局忠实度（R²）在不同合并粒度下保持稳定（FCN上ECG200达0.792）。

背景与动机¶

深度学习在时间序列分类（金融、传感器、医疗心电）取得高精度，但作为黑盒缺乏可解释性，不利于信任建立和法规合规。现有XAI面临三大瓶颈：(1) LIME/SHAP等为图像/表格设计的方法将时间步视为独立特征，忽略时间依赖性；(2) 时间序列的全局解释合成几乎未被研究；(3) 已有少数全局方法（如基于CAM/LRP的）依赖特定架构，缺乏通用性。需要一种架构无关、能从局部聚合到全局、保持时间结构的解释方法。

核心问题¶

如何为任意黑盒时间序列分类器生成类级全局解释？关键难点在于：时间序列有时间依赖性，事件的时间位置和持续时间跨实例变化大，需要在压缩冗余的同时保持对模型行为的忠实度。

方法详解¶

整体框架¶

输入：数据集中每类采样n_inst个实例 → Step1: LOMATCE生成局部解释（事件原语+重要性分数）→ Step2: 层次聚类合并相似事件簇、构建实例-簇重要性矩阵M → Step3: 计算全局簇重要性I → Step4: 贪心选择B个最大覆盖影响簇的代表实例 → Step5: 聚合所选实例的事件属性统计 → 输出：类级全局解释

关键设计¶

LOMATCE局部解释（Step1）: 对每个实例构建邻域（S个扰动样本），提取四类参数化事件原语（PEP）——递增段(start_time, duration, avg_gradient)、递减段、局部最大值(time, value)、局部最小值。用K-means聚类事件，构建事件矩阵Z，训练加权Ridge回归代理获得各簇重要性β，取top-n簇。与传统LIME/SHAP不同，这里以"事件原语"而非单个时间步为解释单元，保留了时间结构语义。
层次聚类合并+实例-簇矩阵（Step2）: 按PEP类型，对所有实例的聚类质心做凝聚层次聚类（欧氏距离），用户设定合并百分位p（如25/50/75/95）确定切割距离τ。合并后构建矩阵M∈R^{N×|G|}，M_{i,j}=该实例中属于全局簇G_j的所有局部簇重要性之和。p越大簇越少越紧凑。
贪心预算选择（Step4）: 给定预算B，贪心选择实例最大化对未覆盖高重要性全局簇的覆盖。类似SP-LIME的子模优化思路，但适配到时间序列事件簇上。确保所选实例多样且覆盖面广。

损失函数 / 训练策略¶

无训练损失——L2GTX是后验解释方法，不修改分类器。核心度量是全局忠实度(GF)：选定B个代表实例的局部代理忠实度R²的平均值。黑盒分类器独立训练（重复100次随机split取均值），L2GTX解释用3个随机种子取宏平均。

实验关键数据¶

数据集	模型	GF(p=25)	GF(p=50)	GF(p=75)	GF(p=95)
ECG200	FCN	0.784±0.015	0.788±0.013	0.780±0.026	0.792±0.014
GunPoint	FCN	0.593±0.007	0.599±0.019	0.601±0.007	0.597±0.011
Coffee	FCN	0.683±0.010	0.678±0.006	0.678±0.005	0.678±0.015
FordA	FCN	0.674±0.021	0.672±0.029	0.673±0.021	0.672±0.028
ECG200	LSTM-FCN	0.828±0.010	0.832±0.013	0.829±0.021	0.831±0.007
CBF	LSTM-FCN	0.519±0.020	0.508±0.025	0.519±0.033	0.502±0.015

消融实验要点¶

不同合并百分位p（25→95）下GF几乎不变（置信区间重叠），说明解释空间可以大幅压缩而不损失忠实度
p增大时全局簇数量单调递减，但GF稳定甚至略有提升，验证了冗余簇的安全合并
FCN和LSTM-FCN在相同数据集上解释结构高度一致（如ECG200的Normal vs Infarction类区分区域相似），说明L2GTX捕捉的是跨架构稳定的决策模式

亮点¶

以参数化事件原语（递增趋势、局部极值等）为解释单元，比单纯的时间步归因更具语义可解释性——不仅说"哪里重要"，还说"什么行为重要"
从局部到全局的聚合流程完整且原则化：聚类合并→重要性估计→预算选择→属性统计
完全模型无关，适用于任意黑盒时间序列分类器
ECG和Coffee案例的定性分析与领域知识一致（如心肌梗死的显著偏转、Robusta咖啡的高强度光谱峰）

局限性 / 可改进方向¶

作者承认：LOMATCE中事件聚类是计算瓶颈，长序列或邻域样本多时开销大
仅在单变量时间序列上验证，未扩展到多变量时间序列（作者列为未来工作）
缺乏与人类专家的用户实验来评估解释的主观有用性
R²作为忠实度指标的上界有限（GunPoint约0.6），可能反映代理模型本身的局限

与相关工作的对比¶

SP-LIME: L2GTX借鉴其预算选择思路，但SP-LIME面向表格数据、不聚合解释也不生成类级摘要；L2GTX额外做了事件簇合并和属性统计
GLocalX: 在表格数据上从局部规则聚合全局模型，但不处理时间结构；L2GTX专注于时间序列的参数化事件原语
LOMATCE: L2GTX的局部解释基础，但LOMATCE仅提供单实例解释；L2GTX将其扩展为全局

启发与关联¶

局部到全局的解释聚合范式可迁移到视频分类的可解释性：将视频帧级别的局部归因聚合为类级全局视频解释
参数化事件原语的思路可用于医学时间序列（如EEG、ECG）的自动化诊断解释
预算约束下的贪心覆盖选择可用于主动学习中的样本选择

评分¶

新颖性: ⭐⭐⭐⭐ 局部到全局的时间序列解释聚合是较新的方向，事件原语为解释单元有创意
实验充分度: ⭐⭐⭐ 6个数据集但均为UCR小型benchmark，缺少大规模或真实应用场景验证
写作质量: ⭐⭐⭐⭐ 方法描述清晰，五步流程结构分明，案例分析有说服力
价值: ⭐⭐⭐ 在XAI子领域有贡献，但应用面较窄，影响力受限于时间序列可解释性社区
写作质量: ⭐⭐⭐
对我的价值: ⭐⭐⭐