DC-ViT: Modulating Spatial and Channel Interactions for Multi-Channel Images¶

日期: 2026-03-15
arXiv: 2603.14281
领域: 多通道图像处理 / 遥感
关键词: multi-channel imaging, ViT, decoupled attention, channel interaction, remote sensing

一句话总结¶

提出 DC-ViT，将 ViT 自注意力解耦为空间路径（通道内）和通道路径（跨通道），通过选择性层级通道交互和分层聚合，在 CHAMMI/JUMP-CP/So2Sat 三个多通道图像基准上大幅超越 ChannelViT（+7.14% OOD）。

领域现状: 多通道图像（遥感多波段、荧光显微、多光谱感知）通道数可变且语义异构——不同通道可能代表完全不同的物理量。
现有痛点: 标准 ViT 将所有通道 token 混合做注意力，不受限的联合注意力稀释通道特异性语义；完全隔离通道又丧失互补信息。ChannelViT 做了初步探索但交互粒度粗糙。
核心 idea: 在 ViT 内分离空间注意力（每通道内部）和通道注意力（跨通道选择性交互），在特定层引入控制的跨通道信息流。

多通道输入 → 每通道独立 patchify → DSA（空间/通道解耦注意力交替）→ DAG（分层聚合：先通道内汇总再跨通道融合）→ 分类头。

Decoupled Self-Attention (DSA):
- 做什么：分离空间和通道维度的注意力计算
- 核心思路：空间注意力 \(\text{Attn}_{sp}\) 只在同一通道的 \(N\) 个 patch 间计算；通道注意力 \(\text{Attn}_{ch}\) 在同一空间位置的 \(C\) 个通道间计算。通过可学习权重 \(\alpha\) 混合两路: \(\text{DSA}(\mathbf{x}) = W_O(\alpha \cdot \text{Attn}_{ch} + (1-\alpha) \cdot \text{Attn}_{sp})\)
- 选择性层级: 通道注意力只在指定层 \(\mathcal{M}=\{4,6,8\}\) 启用——先让各通道独立建立低级特征，再在中间层引入跨通道交互
- 设计动机：保留通道特异性的同时允许受控的跨通道信息流
- 计算复杂度：DSA \(O(CN^2 + NC^2)\) vs 标准 MSA \(O(C^2N^2)\)，当 \(C \ll N\) 时近线性
Decoupled Aggregation (DAG):
- 做什么：学习任务特定的通道重要性
- 核心思路：先对每个通道用 ABMIL 注意力池化得到通道级表示 \(\mathbf{y}_{spac,c} = g_{sp}(\mathbf{x}_{L,c})\)，再跨通道聚合 \(\mathbf{z} = g_{ch}(\mathbf{y}_{spac})\)
- 设计动机：不同任务对不同通道依赖不同（DNA 通道在 perturbation 分类中可能不如 AGP 通道重要）

基础方法	+DC-ViT	CHAMMI(Full)	CHAMMI(Partial)	JUMP-CP(Full)	So2Sat
ChAdaViT	✗/✓	63.88/68.91	—/69.53	42.15/25.09	12.38/10.63
ChannelViT	✗/✓	64.90/71.72	—/73.26	56.49/61.90	—/48.61
ChaMAEViT	✗/✓	73.13/76.33	—/86.11	66.85/70.02	50.01/53.11

组件	CHAMMI Avg	JUMP-CP Full	JUMP-CP Partial
DSA + DAG (完整)	71.72	73.26	61.90
DSA only (无 DAG)	70.02	70.70	62.41
DAG only (无 DSA)	63.46	67.03	56.42
无 DSA 无 DAG (=ChannelViT)	62.91	66.15	57.20

DSA 贡献最大：去掉 DSA 后退化 ~8%，说明解耦注意力是核心
DAG 单独也有轻微提升，但必须配合 DSA 才能发挥最大效果
通道注意力层位置: \(\mathcal{M}=\{5,6,7\}\) 和 \(\{4,6,8\}\) 效果接近最优，全层 \(\mathcal{L}\) 反而不如选择性注入

注意力 FLOPs: DSA 随通道数线性增长，MSA 随通道数二次增长
实际运行时: 低通道数 (<5) DSA 有轻微开销；高通道数 (>10) DSA 显著更快
原因: DSA 的空间注意力 \(O(N^2)\) 和通道注意力 \(O(C^2)\) 分别独立计算，避免了 \(O(C^2 N^2)\) 的联合注意力 | 预训练 → 微调 | 无 DC-ViT | + DC-ViT | |--------------|----------|----------| | HPA → CHAMMI | 70.22 | 77.15 (+6.93) | | JUMP → JUMP-CP | 70.01 | 73.29 (+3.28) |