Efficient Concertormer for Image Deblurring and Beyond¶

会议: ICCV 2025
arXiv: 2404.06135
代码: 即将公开
领域: 图像复原
关键词: 图像去模糊, 自注意力, 线性复杂度, Transformer, 前馈网络

一句话总结¶

提出 Concertormer，通过将自注意力分解为全局 Concertino 和局部 Ripieno 两个分量，同时引入跨维度通信模块和门控深度卷积 MLP，实现了线性复杂度下的全局-局部特征建模，在去模糊及其他图像复原任务上取得 SOTA 性能。

研究背景与动机¶

Transformer 在高层视觉和 NLP 中取得了巨大成功，但其自注意力的计算复杂度与图像尺寸呈二次关系，对高分辨率图像复原来说代价过高。现有解决方案主要有两类，但各有局限：

窗口多头自注意力 (W-MSA)：将特征图划分为 \(k \times k\) 的不重叠块，仅在块内计算注意力。虽然降低了复杂度，但完全忽略了块间关系，导致全局建模能力不足。即使使用 shifted window 技术，也需要堆叠足够多的层才能间接获得全局感受野。

转置自注意力 (Transposed SA)：沿通道维度而非空间维度计算注意力，将复杂度降为 \(\mathcal{O}(hw)\)。但这种方式丢失了空间连通性信息——论文通过一个巧妙的论证指出，对 Q 和 K 矩阵的列进行随机排列不会影响转置自注意力的结果，说明它本质上无法感知空间位置关系。

核心动机在于：能否设计一种同时捕捉局部和全局关系、复杂度为线性的自注意力机制？Concertormer 借鉴音乐术语中独奏（Concertino）与协奏（Ripieno）的概念，将注意力分为两个互补分量来解决这一问题。

方法详解¶

整体框架¶

Concertormer 采用多尺度 U-Net 架构。输入图像通过双线性下采样产生 4 个尺度（\(\mathbf{I}_0\) 到 \(\mathbf{I}_3\)），每个尺度经 \(3 \times 3\) 卷积提升通道维数后送入编码器。编码器和解码器之间使用跨注意力（而非简单加法或拼接）连接跳跃连接。编码器中通过步幅为 2 的 \(2 \times 2\) 卷积降分辨率、升通道；解码器通过 \(1 \times 1\) 卷积加 pixel-shuffle 升分辨率。每一层的基本构建块由 Concerto Self-Attention (CSA) 和 Gated-Dconv MLP (gdMLP) 组成，合并为单阶段结构。

关键设计¶

Concerto Self-Attention (CSA):
- 功能：将自注意力分解为全局共享的 Concertino 和局部特有的 Ripieno 两个分量，同时在空间和通道两个维度进行计算。
- 核心思路：将 Q, K, V 划分为 \(k \times k\) 的块后，Concertino 分量 \(C\) 对所有块的注意力进行求和/平均，捕捉一般性的全局空间关系： \(C = \text{softmax}\left(\sum_i Q_i^c K_i^{c\top} / \beta\right)\) Ripieno 分量 \(R_i\) 则计算每个块相对于平均值的差异，补偿信息损失： \(R_i = \text{softmax}\left((Q_i^r K_i^{r\top} - \overline{Q_i^r K_i^{r\top}}) / \alpha\right)\) 通道被分为两半分别用于 Concertino 和 Ripieno 计算，最终拼接输出。这一分解使得全局信息通过 \(C\) 传播到每个局部块，而每个块又保留了特有的局部细节。注意力图以张量形式表示：\(\mathbf{R}^s \in \mathbb{R}^{n \times k^2 \times k^2}\), \(\mathbf{C}^s \in \mathbb{R}^{d_s/2 \times k^2 \times k^2}\)，自然引入了额外维度。
- 设计动机：W-MSA 完全忽略块间关系，转置 SA 丢失空间信息。CSA 通过 Concertino 提供全局上下文、Ripieno 提供局部差异化细节，两者互补。复杂度为 \(\mathcal{O}(hw)\)，线性于图像尺寸。
跨维度通信 (Cross-Dimensional Communication, CDC):
- 功能：在 CSA 引入的额外维度上建立连接，增强注意力图的表达力。
- 核心思路：对 Ripieno 张量，将其 reshape 为 \(t \times h/k \times w/k \times k^4\) 形式后，使用 \(3 \times 3 \times 1\) 卷积 \(\mathbf{W}^{r_s}\) 在块间维度上做线性组合： \(\mathbf{R}^s = \text{softmax}\left(\mathbf{W}^{r_s}(\mathbf{Q}^{r_s} \times \mathbf{K}^{r_s\top})\right)\) 对 Concertino 张量，使用全连接层 \(\mathbf{W}_p^{c_s}\) 在其常数维度上做线性投影。这样做还有一个副作用：卷积操作将全局均值替换为局部均值（卷积核覆盖的邻域平均），更适合局部细节建模。
- 设计动机：CSA 中不同头和不同块的注意力图是独立计算的，通过 CDC 允许信息在这些维度间流通，可以显著增大感受野（扩散指数提升 39.15 vs 20.51）。
通道 CSA (Channel CSA):
- 功能：将 Concerto Self-Attention 扩展到通道维度。
- 核心思路：与空间 CSA 对称地，在通道维度上也分解为 Ripieno \(\mathbf{R}^c\) 和 Concertino \(\mathbf{C}^c\)。由于位置信息分别编码在 \(\mathbf{R}^c\) 的 \(n\) 维度和 \(\mathbf{C}^c\) 的 \(k^2\) 维度中，通道 CSA 能够感知空间位置，克服了原始转置自注意力的局限。
- 设计动机：转置 SA 效率高但缺乏空间感知，通过在通道维度引入 Concerto 分解，保留效率的同时解决了空间不变性问题。
门控深度卷积 MLP (gdMLP):
- 功能：替代传统 Transformer 的两阶段设计（SA + FFN），将自注意力和 FFN 合并到单阶段。
- 核心思路： \(\text{gdMLP}(\mathbf{X}) = \mathbf{W}_p^g\left((\text{SCA}(\mathbf{X}^A) + \mathbf{U}) \odot \mathbf{Z}\right)\) 其中 \(\mathbf{U} = \mathbf{W}_d^u(\mathbf{W}_p^u(\mathbf{X}))\) 通过深度卷积提取特征，\(\mathbf{Z} = \mathbf{W}_p^z \mathbf{X}\) 作为门控信号，\(\mathbf{X}^A\) 为 CSA 输出经过简化通道注意力 (SCA) 加权后的结果。深度卷积还能补偿不重叠分块导致的边界不连续。
- 设计动机：FFN 在 NLP 中的作用在视觉任务中尚不明确，且两阶段设计限制了灵活性。gdMLP 通过门控机制融合注意力和前馈计算，减少了复杂度。

损失函数 / 训练策略¶

使用空间域和频率域的 \(\ell_1\) 损失，在 4 个尺度上同时计算
采用 AdamW 优化器（\(\beta_1 = \beta_2 = 0.9\)，weight decay \(10^{-3}\)）
渐进式训练：从 \(128 \times 128\) 到 \(256 \times 256\) 再到 \(320 \times 320\)，每阶段 200K 迭代
推理时使用 Test-time Local Converter (TLC) 进一步提升性能

实验关键数据¶

主实验¶

数据集	指标	Concertormer	FFTformer (之前SOTA)	提升
GoPro	PSNR/SSIM	34.42/0.971	34.21/0.969	+0.21 dB
HIDE	PSNR/SSIM	32.12/0.951	31.62/0.946	+0.50 dB
RealBlur-R	PSNR/SSIM	40.78/0.977	40.11/0.973	+0.67 dB
RealBlur-J	PSNR/SSIM	33.51/0.945	32.62/0.933	+0.89 dB

在去雨任务上也取得 SOTA：平均 34.60/0.943 (vs Restormer 34.16/0.937)。

消融实验¶

配置	PSNR	SSIM	FLOPs(G)	说明
Model 1 (gdMLP baseline)	32.35	0.951	41.22	无自注意力
+Spatial Ripieno	32.58	0.953	-	+0.23 dB
+Spatial CSA (R+C)	33.11	0.958	119.34	Concertino 带来 +0.53 dB
+Channel CSA	33.20	0.958	118.33	融合空间+通道
+SCA	33.31	0.959	118.57	+0.11 dB，仅增加 0.2% FLOPs
+CDC (完整模型)	33.53	0.961	116.79	CDC 再提 +0.22 dB
FFN 两阶段设计	31.90	0.945	116.81	比 gdMLP 差 1.6 dB

关键发现¶

将 Restormer 的转置 SA 替换为 CSA 后，PSNR 在 GoPro 上提升 0.4 dB（32.92→33.32），FLOPs 还降低了 0.5%
CDC 使扩散指数（衡量感受野的指标）从 20.51 提升到 39.15，接近翻倍
单阶段 gdMLP 设计比传统两阶段设计高出 1.6 dB PSNR

亮点与洞察¶

音乐隐喻设计：将注意力分为 Concertino（独奏/全局）和 Ripieno（协奏/局部）的思路直观优雅，类似频域中信号分解为均值+残差
线性复杂度：通过分块计算和通道分割，在不牺牲全局建模能力的前提下实现线性复杂度
CDC 的巧妙性：通过在额外维度上引入可学习的线性组合，以极低代价（0.36% FLOPs）显著扩大感受野
单阶段设计：质疑了 FFN 在视觉 Transformer 中的必要性，证明门控 MLP 可以更好地承担这一角色
即插即用：CSA 可以作为模块替换现有方法的自注意力机制（如 Restormer），具有良好的通用性

局限与展望¶

分块大小 \(k=8\) 是固定的，可以探索自适应分块策略
Concertino 的全局平均操作可能对极端非均匀退化不够灵活
多尺度输入需要额外的下采样和卷积，增加了编码端复杂度
论文主要验证了去模糊和去雨任务，对其他复原任务（如超分辨率、去噪等）的验证不够充分

评分¶

新颖性: ⭐⭐⭐⭐ Concerto 分解思路新颖，但整体仍在 Transformer 改进范畴内
实验充分度: ⭐⭐⭐⭐⭐ 消融实验极为详尽，包括扩散指数和 LAM 可视化
写作质量: ⭐⭐⭐⭐ 数学推导清晰，但符号繁多需要反复对照
价值: ⭐⭐⭐⭐ CSA 的即插即用特性和线性复杂度使其有较好的实用价值