跳转至

L2GTX: From Local to Global Time Series Explanations

会议: CVPR 2026
arXiv: 2603.13065
代码: 无(未提供)
领域: 可解释AI / 时间序列分类
关键词: [时间序列解释, 局部到全局聚合, 模型无关XAI, 参数化事件原语, 代表性实例选择]

一句话总结

提出L2GTX——一种完全模型无关的方法,通过LOMATCE提取参数化时间事件原语的局部解释,再经层次聚类合并、贪心预算选择和事件聚合,生成紧凑且忠实的类级全局时间序列解释,在6个UCR数据集上全局忠实度(R²)在不同合并粒度下保持稳定(FCN上ECG200达0.792)。

背景与动机

深度学习在时间序列分类(金融、传感器、医疗心电)取得高精度,但作为黑盒缺乏可解释性,不利于信任建立和法规合规。现有XAI面临三大瓶颈:(1) LIME/SHAP等为图像/表格设计的方法将时间步视为独立特征,忽略时间依赖性;(2) 时间序列的全局解释合成几乎未被研究;(3) 已有少数全局方法(如基于CAM/LRP的)依赖特定架构,缺乏通用性。需要一种架构无关、能从局部聚合到全局、保持时间结构的解释方法。

核心问题

如何为任意黑盒时间序列分类器生成类级全局解释?关键难点在于:时间序列有时间依赖性,事件的时间位置和持续时间跨实例变化大,需要在压缩冗余的同时保持对模型行为的忠实度。

方法详解

整体框架

输入:数据集中每类采样n_inst个实例 → Step1: LOMATCE生成局部解释(事件原语+重要性分数)→ Step2: 层次聚类合并相似事件簇、构建实例-簇重要性矩阵M → Step3: 计算全局簇重要性I → Step4: 贪心选择B个最大覆盖影响簇的代表实例 → Step5: 聚合所选实例的事件属性统计 → 输出:类级全局解释

关键设计

  1. LOMATCE局部解释(Step1): 对每个实例构建邻域(S个扰动样本),提取四类参数化事件原语(PEP)——递增段(start_time, duration, avg_gradient)、递减段、局部最大值(time, value)、局部最小值。用K-means聚类事件,构建事件矩阵Z,训练加权Ridge回归代理获得各簇重要性β,取top-n簇。与传统LIME/SHAP不同,这里以"事件原语"而非单个时间步为解释单元,保留了时间结构语义。
  2. 层次聚类合并+实例-簇矩阵(Step2): 按PEP类型,对所有实例的聚类质心做凝聚层次聚类(欧氏距离),用户设定合并百分位p(如25/50/75/95)确定切割距离τ。合并后构建矩阵M∈R^{N×|G|},M_{i,j}=该实例中属于全局簇G_j的所有局部簇重要性之和。p越大簇越少越紧凑。
  3. 贪心预算选择(Step4): 给定预算B,贪心选择实例最大化对未覆盖高重要性全局簇的覆盖。类似SP-LIME的子模优化思路,但适配到时间序列事件簇上。确保所选实例多样且覆盖面广。

损失函数 / 训练策略

无训练损失——L2GTX是后验解释方法,不修改分类器。核心度量是全局忠实度(GF):选定B个代表实例的局部代理忠实度R²的平均值。黑盒分类器独立训练(重复100次随机split取均值),L2GTX解释用3个随机种子取宏平均。

实验关键数据

数据集 模型 GF(p=25) GF(p=50) GF(p=75) GF(p=95)
ECG200 FCN 0.784±0.015 0.788±0.013 0.780±0.026 0.792±0.014
GunPoint FCN 0.593±0.007 0.599±0.019 0.601±0.007 0.597±0.011
Coffee FCN 0.683±0.010 0.678±0.006 0.678±0.005 0.678±0.015
FordA FCN 0.674±0.021 0.672±0.029 0.673±0.021 0.672±0.028
ECG200 LSTM-FCN 0.828±0.010 0.832±0.013 0.829±0.021 0.831±0.007
CBF LSTM-FCN 0.519±0.020 0.508±0.025 0.519±0.033 0.502±0.015

消融实验要点

  • 不同合并百分位p(25→95)下GF几乎不变(置信区间重叠),说明解释空间可以大幅压缩而不损失忠实度
  • p增大时全局簇数量单调递减,但GF稳定甚至略有提升,验证了冗余簇的安全合并
  • FCN和LSTM-FCN在相同数据集上解释结构高度一致(如ECG200的Normal vs Infarction类区分区域相似),说明L2GTX捕捉的是跨架构稳定的决策模式

亮点

  • 以参数化事件原语(递增趋势、局部极值等)为解释单元,比单纯的时间步归因更具语义可解释性——不仅说"哪里重要",还说"什么行为重要"
  • 从局部到全局的聚合流程完整且原则化:聚类合并→重要性估计→预算选择→属性统计
  • 完全模型无关,适用于任意黑盒时间序列分类器
  • ECG和Coffee案例的定性分析与领域知识一致(如心肌梗死的显著偏转、Robusta咖啡的高强度光谱峰)

局限性 / 可改进方向

  • 作者承认:LOMATCE中事件聚类是计算瓶颈,长序列或邻域样本多时开销大
  • 仅在单变量时间序列上验证,未扩展到多变量时间序列(作者列为未来工作)
  • 缺乏与人类专家的用户实验来评估解释的主观有用性
  • R²作为忠实度指标的上界有限(GunPoint约0.6),可能反映代理模型本身的局限

与相关工作的对比

  • SP-LIME: L2GTX借鉴其预算选择思路,但SP-LIME面向表格数据、不聚合解释也不生成类级摘要;L2GTX额外做了事件簇合并和属性统计
  • GLocalX: 在表格数据上从局部规则聚合全局模型,但不处理时间结构;L2GTX专注于时间序列的参数化事件原语
  • LOMATCE: L2GTX的局部解释基础,但LOMATCE仅提供单实例解释;L2GTX将其扩展为全局

启发与关联

  • 局部到全局的解释聚合范式可迁移到视频分类的可解释性:将视频帧级别的局部归因聚合为类级全局视频解释
  • 参数化事件原语的思路可用于医学时间序列(如EEG、ECG)的自动化诊断解释
  • 预算约束下的贪心覆盖选择可用于主动学习中的样本选择

评分

  • 新颖性: ⭐⭐⭐⭐ 局部到全局的时间序列解释聚合是较新的方向,事件原语为解释单元有创意
  • 实验充分度: ⭐⭐⭐ 6个数据集但均为UCR小型benchmark,缺少大规模或真实应用场景验证
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,五步流程结构分明,案例分析有说服力
  • 价值: ⭐⭐⭐ 在XAI子领域有贡献,但应用面较窄,影响力受限于时间序列可解释性社区
  • 写作质量: ⭐⭐⭐
  • 对我的价值: ⭐⭐⭐