Dissecting Chronos: Sparse Autoencoders Reveal Causal Feature Hierarchies in Time Series Foundation Models¶

会议: ICLR 2026 arXiv: 2603.10071 代码: 未开源领域: 时间序列 / 可解释性 关键词: Sparse Autoencoder, Time Series Foundation Model, Mechanistic Interpretability, Chronos-T5, Causal Ablation, Feature Hierarchy

一句话总结¶

首次将稀疏自编码器 (SAE) 应用于时间序列基础模型 Chronos-T5-Large，通过 392 次因果消融实验揭示了深度依赖的特征层级：中层编码器集中了因果关键的突变检测特征，而语义最丰富的末层编码器反而因果重要性最低。

研究背景与动机¶

时间序列基础模型兴起但内部不透明：Chronos-T5、TimesFM、MOMENT、Moirai 等模型在零样本预测中表现优异，但其内部表征完全未被从机制层面审视过。
NLP 领域机制可解释性已成熟：SAE 已成功分解语言模型的稠密叠加激活为可解释特征（Bricken et al., 2023; Templeton et al., 2024），电路分析识别了可解释的计算子图。
时间序列可解释性仍停留在事后方法：现有工作依赖显著性图、扰动解释、反事实方法和概念框架，仅有 Kalnāre et al. (2025) 对小型分类器做过初步机制分析，尚无人研究基础模型。
Chronos-T5 架构适合 SAE 分析：T5 架构成熟、SAE 训练协议完善、Chronos 的离散化 tokenization（4096 bins）提供了天然的分析单元。
高风险领域部署需要可信解释：时间序列模型越来越多地部署在金融、医疗等高风险场景，理解其内部机制对信任建设至关重要。
核心假设待验证：SAE 学到的特征是否具备因果相关性？不同层的特征是否存在层级结构？语义丰富度与因果重要性是否一致？

方法详解¶

整体框架¶

在 Chronos-T5-Large（710M 参数，24 层编码器 + 24 层解码器，\(d_{\text{model}}=1024\)）的 6 个提取点训练 TopK SAE，用合成数据构建特征分类法，用 ETT 真实数据做因果消融验证，建立特征的语义标签与因果重要性的对应关系。

关键设计一：TopK 稀疏自编码器¶

做什么：在每个提取点的残差流激活上训练 SAE，将稠密激活分解为稀疏的可解释特征。
核心思路：给定激活 \(\mathbf{x} \in \mathbb{R}^{d_{\text{model}}}\)，SAE 计算 \(\mathbf{z} = \text{TopK}(\mathbf{W}_{\text{enc}}(\mathbf{x} - \mathbf{b}_{\text{dec}}) + \mathbf{b}_{\text{enc}}, k)\)，仅保留 \(k=64\) 个最大激活值，重构 \(\hat{\mathbf{x}} = \mathbf{W}_{\text{dec}}\mathbf{z} + \mathbf{b}_{\text{dec}}\)。
设计动机：TopK 比 L1 正则化更直接控制稀疏度；扩展系数 \(d_{\text{sae}} = 8 \times d_{\text{model}} = 8192\) 提供足够容量分解叠加特征；死特征定期重采样保证利用率。

关键设计二：六点层级激活提取¶

做什么：在编码器第 5、11、23 层和解码器第 11（残差流 + 交叉注意力输出）、23 层共 6 个位置注册前向钩子提取激活。
核心思路：选取编码器的早期、中期、后期三个代表层，加上解码器端的对应层，覆盖从输入编码到预测生成的完整处理流水线。
设计动机：语言模型研究表明不同深度的层承担不同功能，时间序列模型是否也存在类似层级结构是本文核心研究问题。

关键设计三：双数据源特征分类法¶

做什么：用合成诊断数据集（含趋势、季节性、突变、频率扫描、异方差噪声等已知属性）对每个 SAE 特征打上 11 类时间概念标签。
核心思路：计算每个特征在合成数据上的激活模式与各诊断类别真值属性的 Pearson 相关系数，最大相关系数低于阈值的标为 unknown。
设计动机：合成数据提供 ground-truth 时间属性，避免了真实数据上标注的模糊性；11 类标签覆盖趋势、季节性、突变、频率、波动率和噪声等核心时间概念。

关键设计四：单特征与渐进式因果消融¶

做什么：验证特征的因果重要性——单特征消融将某一特征的稀疏编码置零后测量 CRPS 变化；渐进式消融按解码器范数贡献排序累积移除 1-64 个特征。
核心思路：\(\Delta\text{CRPS}_j = \text{CRPS}_{\text{ablated}} - \text{CRPS}_{\text{original}}\)，正值说明该特征包含模型预测所需信息；渐进消融揭示各层对特征移除的鲁棒性差异。
设计动机：相比相关性分析，消融直接建立因果关系；渐进消融进一步区分"有用但冗余"与"不可替代"的特征。

损失函数与训练¶

SAE 使用 MSE 重构损失训练 50,000 步，Adam 优化器（学习率 \(3 \times 10^{-4}\)，余弦衰减）。消融实验在 ETT 基准上进行，使用 256 个上下文窗口、预测长度 64、4 次预测采样；末层编码器额外做了 1024 窗口、8 采样、200 特征的扩展实验。

实验关键数据¶

表1：单特征消融汇总¶

层	特征数	均值 \(\Delta\)CRPS	中位数	最大值	正比例	最大/中位
编码器 Block 5	64	3.05	0.95	26.32	100%	27.7×
编码器 Block 11	64	5.15	1.26	38.61	100%	30.5×
编码器 Block 23	64	3.73	2.98	11.65	100%	3.9×
编码器 Block 23†	200	2.37	2.37	2.44	100%	1.03×

所有 392 次消融均产生正 \(\Delta\)CRPS，证实每个特征都具有因果相关性。中层编码器（Block 11）因果影响最大（最大 \(\Delta\)CRPS=38.61），分布极度右偏。

表2：各层特征分类分布（部分）¶

概念	Enc 5	Enc 11	Enc 23
季节性	12	45	1,439
突变↑	66	1,024	1,097
高频	97	91	668
噪声	32	413	315
标注率	4.9%	25.8%	59.8%

末层编码器语义最丰富（59.8% 标注率），但中层编码器集中了突变检测特征（1024 个 level_shift_up）。

渐进消融关键发现¶

Block 11：CRPS 从 2.61 急剧升至 25.32（灾难性退化）
Block 5：CRPS 从 7.05 升至 21.54
Block 23：CRPS 从 3.62 降至 2.73（反而改善 0.89），扩展实验确认趋势稳定

亮点¶

首创性：首次将 SAE 应用于时间序列基础模型，成功从 NLP 迁移机制可解释性方法论
揭示反直觉规律：因果重要性与语义丰富度呈逆相关——中层编码器因果最关键但语义稀疏，末层语义最丰富但消融后反而改善
100% 因果验证率：392 次消融全部产生正 CRPS 退化，有力证明 SAE 特征的因果相关性
发现突变检测为核心机制：Chronos-T5 依赖突变动态检测而非周期模式识别，对模型理解和改进有指导意义
末层消融悖论的解释合理：末层可能编码了跨域泛化特征，在特定数据集上消融等价于隐式域适应

局限性¶

数据集单一：因果消融仅在 ETT 数据上进行，结论是否泛化到其他时间序列领域未知
分类器覆盖率低：82.8% 的特征未获标签，解码器端覆盖率不足 6%，特征分类法仍较粗糙
仅分析一个模型：只研究了 Chronos-T5-Large，未做跨架构（TimesFM、MOMENT）对比
消融配置统计精度有限：快速配置（256 窗口、4 采样）仅提供方向性结论，定量精度不够
缺乏电路级分析：仅做特征级消融，未深入特征间的连接关系和计算图结构

评分¶

新颖性: ⭐⭐⭐⭐ — 首次将 SAE 方法论从 NLP 迁移到时间序列基础模型，开创性工作
实验充分度: ⭐⭐⭐ — 392 次消融有力但仅限 ETT 数据、单一模型、分类覆盖率待提升
写作质量: ⭐⭐⭐⭐ — 结构清晰，反直觉发现阐述充分，图表设计合理
价值: ⭐⭐⭐⭐ — 为时间序列模型的机制可解释性开辟新方向，发现对模型设计和压缩有指导意义