Channel Normalization for Time Series Channel Identification¶

会议: ICML 2025
arXiv: 2506.00432
代码: https://github.com/seunghan96/CN
领域: 时间序列
关键词: 通道归一化, 通道可辨识性, 多变量时间序列预测, 仿射变换, 基础模型

一句话总结¶

提出通道归一化（Channel Normalization, CN），通过为每个通道分配独立的仿射变换参数来增强时间序列模型的通道可辨识性（CID），并扩展出自适应版本 ACN（动态调整参数）和原型版本 PCN（支持未知/可变通道数），在多种时间序列模型上实现显著性能提升。

通道可辨识性问题：多变量时间序列建模中，"通道可辨识性"（Channel Identifiability, CID）指模型区分不同通道的能力。缺乏 CID 的模型（如 PatchTST、DLinear）会对相同输入产生相同输出，忽略通道特异性。

现有方法的分类： - 非 CID 模型：所有通道共享参数（如 PatchTST），参数效率高但丢失通道信息 - CID 模型：每通道独立参数（如 iTransformer），保留通道信息但参数量大

核心矛盾：如何在不显著增加参数量的情况下赋予模型通道辨识能力？

信息论视角：作者从互信息角度分析，当模型输入与通道索引的互信息为零时，模型无法区分通道——这正是非 CID 模型的问题。

切入角度：在归一化层注入通道特定的仿射参数，最小侵入式地增强 CID。

CN 的核心思想非常简洁：在标准归一化后，用通道特定的 \(\gamma\) 和 \(\beta\) 替代共享参数：

\[\text{CN}(x_c) = \gamma_c \cdot \frac{x_c - \mu_c}{\sqrt{\sigma_c^2 + \epsilon}} + \beta_c\]

其中 \(c\) 为通道索引，\(\gamma_c \in \mathbb{R}^D\)，\(\beta_c \in \mathbb{R}^D\) 是每个通道独立学习的仿射参数。

Channel Normalization (CN):
- 每个通道有独立的 \((\gamma_c, \beta_c)\) 参数对
- 参数量仅增加 \(2 \times C \times D\)（\(C\) 为通道数，\(D\) 为特征维度）
- 可直接替换任何模型中的 LayerNorm
Adaptive Channel Normalization (ACN):
- 动机：CN 的参数是静态的，无法适应输入的动态变化
- 设计：基于通道间余弦相似度计算注意力权重，动态聚合仿射参数
- 公式：\(\alpha_{ij} = \text{softmax}(\cos(x_i, x_j) / \tau)\)
- 最终参数：\(\tilde{\gamma}_c = \gamma_c^{global} \odot \sum_j \alpha_{cj} \gamma_j\)
- 优势：相似通道共享信息，提升泛化能力
Prototypical Channel Normalization (PCN):
- 动机：CN/ACN 需要预知通道数 \(C\)，无法用于通道数变化的场景（如基础模型）
- 设计：引入 \(K\) 个可学习原型 \(\{p_k\}_{k=1}^K\)，通道通过与原型的相似度获取仿射参数
- 公式：\(\gamma_c = \sum_k \text{softmax}(\text{sim}(x_c, p_k)) \cdot \gamma_k^{proto}\)
- 优势：\(K\) 固定，与实际通道数无关，适用于时间序列基础模型

模型	原始 MSE	+CN MSE	提升
PatchTST (非CID)	0.386	0.370	-4.1%
DLinear (非CID)	0.375	0.362	-3.5%
iTransformer (CID)	0.386	0.374	-3.1%
TSMixer (CID)	0.391	0.375	-4.1%
S-Mamba (CID)	0.382	0.368	-3.7%

方法	ETTh1	ETTh2	ETTm1	Weather	说明
无归一化	0.391	0.342	0.338	0.176	baseline
LayerNorm	0.386	0.337	0.334	0.174	标准方案
CN	0.374	0.329	0.326	0.168	通道特定仿射
ACN	0.370	0.325	0.323	0.166	自适应最优
PCN	0.376	0.331	0.328	0.170	原型版本