L2GTX: From Local to Global Time Series Explanations¶
会议: CVPR 2026
arXiv: 2603.13065
代码: 无(未提供)
领域: 可解释AI / 时间序列分类
关键词: [时间序列解释, 局部到全局聚合, 模型无关XAI, 参数化事件原语, 代表性实例选择]
一句话总结¶
提出L2GTX——一种完全模型无关的方法,通过LOMATCE提取参数化时间事件原语的局部解释,再经层次聚类合并、贪心预算选择和事件聚合,生成紧凑且忠实的类级全局时间序列解释,在6个UCR数据集上全局忠实度(R²)在不同合并粒度下保持稳定(FCN上ECG200达0.792)。
背景与动机¶
深度学习在时间序列分类(金融、传感器、医疗心电)取得高精度,但作为黑盒缺乏可解释性,不利于信任建立和法规合规。现有XAI面临三大瓶颈:(1) LIME/SHAP等为图像/表格设计的方法将时间步视为独立特征,忽略时间依赖性;(2) 时间序列的全局解释合成几乎未被研究;(3) 已有少数全局方法(如基于CAM/LRP的)依赖特定架构,缺乏通用性。需要一种架构无关、能从局部聚合到全局、保持时间结构的解释方法。
核心问题¶
如何为任意黑盒时间序列分类器生成类级全局解释?关键难点在于:时间序列有时间依赖性,事件的时间位置和持续时间跨实例变化大,需要在压缩冗余的同时保持对模型行为的忠实度。
方法详解¶
整体框架¶
输入:数据集中每类采样n_inst个实例 → Step1: LOMATCE生成局部解释(事件原语+重要性分数)→ Step2: 层次聚类合并相似事件簇、构建实例-簇重要性矩阵M → Step3: 计算全局簇重要性I → Step4: 贪心选择B个最大覆盖影响簇的代表实例 → Step5: 聚合所选实例的事件属性统计 → 输出:类级全局解释
关键设计¶
- LOMATCE局部解释(Step1): 对每个实例构建邻域(S个扰动样本),提取四类参数化事件原语(PEP)——递增段(start_time, duration, avg_gradient)、递减段、局部最大值(time, value)、局部最小值。用K-means聚类事件,构建事件矩阵Z,训练加权Ridge回归代理获得各簇重要性β,取top-n簇。与传统LIME/SHAP不同,这里以"事件原语"而非单个时间步为解释单元,保留了时间结构语义。
- 层次聚类合并+实例-簇矩阵(Step2): 按PEP类型,对所有实例的聚类质心做凝聚层次聚类(欧氏距离),用户设定合并百分位p(如25/50/75/95)确定切割距离τ。合并后构建矩阵M∈R^{N×|G|},M_{i,j}=该实例中属于全局簇G_j的所有局部簇重要性之和。p越大簇越少越紧凑。
- 贪心预算选择(Step4): 给定预算B,贪心选择实例最大化对未覆盖高重要性全局簇的覆盖。类似SP-LIME的子模优化思路,但适配到时间序列事件簇上。确保所选实例多样且覆盖面广。
损失函数 / 训练策略¶
无训练损失——L2GTX是后验解释方法,不修改分类器。核心度量是全局忠实度(GF):选定B个代表实例的局部代理忠实度R²的平均值。黑盒分类器独立训练(重复100次随机split取均值),L2GTX解释用3个随机种子取宏平均。
实验关键数据¶
| 数据集 | 模型 | GF(p=25) | GF(p=50) | GF(p=75) | GF(p=95) |
|---|---|---|---|---|---|
| ECG200 | FCN | 0.784±0.015 | 0.788±0.013 | 0.780±0.026 | 0.792±0.014 |
| GunPoint | FCN | 0.593±0.007 | 0.599±0.019 | 0.601±0.007 | 0.597±0.011 |
| Coffee | FCN | 0.683±0.010 | 0.678±0.006 | 0.678±0.005 | 0.678±0.015 |
| FordA | FCN | 0.674±0.021 | 0.672±0.029 | 0.673±0.021 | 0.672±0.028 |
| ECG200 | LSTM-FCN | 0.828±0.010 | 0.832±0.013 | 0.829±0.021 | 0.831±0.007 |
| CBF | LSTM-FCN | 0.519±0.020 | 0.508±0.025 | 0.519±0.033 | 0.502±0.015 |
消融实验要点¶
- 不同合并百分位p(25→95)下GF几乎不变(置信区间重叠),说明解释空间可以大幅压缩而不损失忠实度
- p增大时全局簇数量单调递减,但GF稳定甚至略有提升,验证了冗余簇的安全合并
- FCN和LSTM-FCN在相同数据集上解释结构高度一致(如ECG200的Normal vs Infarction类区分区域相似),说明L2GTX捕捉的是跨架构稳定的决策模式
亮点¶
- 以参数化事件原语(递增趋势、局部极值等)为解释单元,比单纯的时间步归因更具语义可解释性——不仅说"哪里重要",还说"什么行为重要"
- 从局部到全局的聚合流程完整且原则化:聚类合并→重要性估计→预算选择→属性统计
- 完全模型无关,适用于任意黑盒时间序列分类器
- ECG和Coffee案例的定性分析与领域知识一致(如心肌梗死的显著偏转、Robusta咖啡的高强度光谱峰)
局限性 / 可改进方向¶
- 作者承认:LOMATCE中事件聚类是计算瓶颈,长序列或邻域样本多时开销大
- 仅在单变量时间序列上验证,未扩展到多变量时间序列(作者列为未来工作)
- 缺乏与人类专家的用户实验来评估解释的主观有用性
- R²作为忠实度指标的上界有限(GunPoint约0.6),可能反映代理模型本身的局限
与相关工作的对比¶
- SP-LIME: L2GTX借鉴其预算选择思路,但SP-LIME面向表格数据、不聚合解释也不生成类级摘要;L2GTX额外做了事件簇合并和属性统计
- GLocalX: 在表格数据上从局部规则聚合全局模型,但不处理时间结构;L2GTX专注于时间序列的参数化事件原语
- LOMATCE: L2GTX的局部解释基础,但LOMATCE仅提供单实例解释;L2GTX将其扩展为全局
启发与关联¶
- 局部到全局的解释聚合范式可迁移到视频分类的可解释性:将视频帧级别的局部归因聚合为类级全局视频解释
- 参数化事件原语的思路可用于医学时间序列(如EEG、ECG)的自动化诊断解释
- 预算约束下的贪心覆盖选择可用于主动学习中的样本选择
评分¶
- 新颖性: ⭐⭐⭐⭐ 局部到全局的时间序列解释聚合是较新的方向,事件原语为解释单元有创意
- 实验充分度: ⭐⭐⭐ 6个数据集但均为UCR小型benchmark,缺少大规模或真实应用场景验证
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,五步流程结构分明,案例分析有说服力
- 价值: ⭐⭐⭐ 在XAI子领域有贡献,但应用面较窄,影响力受限于时间序列可解释性社区
- 写作质量: ⭐⭐⭐
- 对我的价值: ⭐⭐⭐