跳转至

Efficient Concertormer for Image Deblurring and Beyond

会议: ICCV 2025
arXiv: 2404.06135
代码: 即将公开
领域: 图像复原
关键词: 图像去模糊, 自注意力, 线性复杂度, Transformer, 前馈网络

一句话总结

提出 Concertormer,通过将自注意力分解为全局 Concertino 和局部 Ripieno 两个分量,同时引入跨维度通信模块和门控深度卷积 MLP,实现了线性复杂度下的全局-局部特征建模,在去模糊及其他图像复原任务上取得 SOTA 性能。

研究背景与动机

Transformer 在高层视觉和 NLP 中取得了巨大成功,但其自注意力的计算复杂度与图像尺寸呈二次关系,对高分辨率图像复原来说代价过高。现有解决方案主要有两类,但各有局限:

窗口多头自注意力 (W-MSA):将特征图划分为 \(k \times k\) 的不重叠块,仅在块内计算注意力。虽然降低了复杂度,但完全忽略了块间关系,导致全局建模能力不足。即使使用 shifted window 技术,也需要堆叠足够多的层才能间接获得全局感受野。

转置自注意力 (Transposed SA):沿通道维度而非空间维度计算注意力,将复杂度降为 \(\mathcal{O}(hw)\)。但这种方式丢失了空间连通性信息——论文通过一个巧妙的论证指出,对 Q 和 K 矩阵的列进行随机排列不会影响转置自注意力的结果,说明它本质上无法感知空间位置关系。

核心动机在于:能否设计一种同时捕捉局部和全局关系、复杂度为线性的自注意力机制?Concertormer 借鉴音乐术语中独奏(Concertino)与协奏(Ripieno)的概念,将注意力分为两个互补分量来解决这一问题。

方法详解

整体框架

Concertormer 采用多尺度 U-Net 架构。输入图像通过双线性下采样产生 4 个尺度(\(\mathbf{I}_0\)\(\mathbf{I}_3\)),每个尺度经 \(3 \times 3\) 卷积提升通道维数后送入编码器。编码器和解码器之间使用跨注意力(而非简单加法或拼接)连接跳跃连接。编码器中通过步幅为 2 的 \(2 \times 2\) 卷积降分辨率、升通道;解码器通过 \(1 \times 1\) 卷积加 pixel-shuffle 升分辨率。每一层的基本构建块由 Concerto Self-Attention (CSA)Gated-Dconv MLP (gdMLP) 组成,合并为单阶段结构。

关键设计

  1. Concerto Self-Attention (CSA):

    • 功能:将自注意力分解为全局共享的 Concertino 和局部特有的 Ripieno 两个分量,同时在空间和通道两个维度进行计算。
    • 核心思路:将 Q, K, V 划分为 \(k \times k\) 的块后,Concertino 分量 \(C\) 对所有块的注意力进行求和/平均,捕捉一般性的全局空间关系: \(C = \text{softmax}\left(\sum_i Q_i^c K_i^{c\top} / \beta\right)\) Ripieno 分量 \(R_i\) 则计算每个块相对于平均值的差异,补偿信息损失: \(R_i = \text{softmax}\left((Q_i^r K_i^{r\top} - \overline{Q_i^r K_i^{r\top}}) / \alpha\right)\) 通道被分为两半分别用于 Concertino 和 Ripieno 计算,最终拼接输出。这一分解使得全局信息通过 \(C\) 传播到每个局部块,而每个块又保留了特有的局部细节。注意力图以张量形式表示:\(\mathbf{R}^s \in \mathbb{R}^{n \times k^2 \times k^2}\), \(\mathbf{C}^s \in \mathbb{R}^{d_s/2 \times k^2 \times k^2}\),自然引入了额外维度。
    • 设计动机:W-MSA 完全忽略块间关系,转置 SA 丢失空间信息。CSA 通过 Concertino 提供全局上下文、Ripieno 提供局部差异化细节,两者互补。复杂度为 \(\mathcal{O}(hw)\),线性于图像尺寸。
  2. 跨维度通信 (Cross-Dimensional Communication, CDC):

    • 功能:在 CSA 引入的额外维度上建立连接,增强注意力图的表达力。
    • 核心思路:对 Ripieno 张量,将其 reshape 为 \(t \times h/k \times w/k \times k^4\) 形式后,使用 \(3 \times 3 \times 1\) 卷积 \(\mathbf{W}^{r_s}\) 在块间维度上做线性组合: \(\mathbf{R}^s = \text{softmax}\left(\mathbf{W}^{r_s}(\mathbf{Q}^{r_s} \times \mathbf{K}^{r_s\top})\right)\) 对 Concertino 张量,使用全连接层 \(\mathbf{W}_p^{c_s}\) 在其常数维度上做线性投影。这样做还有一个副作用:卷积操作将全局均值替换为局部均值(卷积核覆盖的邻域平均),更适合局部细节建模。
    • 设计动机:CSA 中不同头和不同块的注意力图是独立计算的,通过 CDC 允许信息在这些维度间流通,可以显著增大感受野(扩散指数提升 39.15 vs 20.51)。
  3. 通道 CSA (Channel CSA):

    • 功能:将 Concerto Self-Attention 扩展到通道维度。
    • 核心思路:与空间 CSA 对称地,在通道维度上也分解为 Ripieno \(\mathbf{R}^c\) 和 Concertino \(\mathbf{C}^c\)。由于位置信息分别编码在 \(\mathbf{R}^c\)\(n\) 维度和 \(\mathbf{C}^c\)\(k^2\) 维度中,通道 CSA 能够感知空间位置,克服了原始转置自注意力的局限。
    • 设计动机:转置 SA 效率高但缺乏空间感知,通过在通道维度引入 Concerto 分解,保留效率的同时解决了空间不变性问题。
  4. 门控深度卷积 MLP (gdMLP):

    • 功能:替代传统 Transformer 的两阶段设计(SA + FFN),将自注意力和 FFN 合并到单阶段。
    • 核心思路\(\text{gdMLP}(\mathbf{X}) = \mathbf{W}_p^g\left((\text{SCA}(\mathbf{X}^A) + \mathbf{U}) \odot \mathbf{Z}\right)\) 其中 \(\mathbf{U} = \mathbf{W}_d^u(\mathbf{W}_p^u(\mathbf{X}))\) 通过深度卷积提取特征,\(\mathbf{Z} = \mathbf{W}_p^z \mathbf{X}\) 作为门控信号,\(\mathbf{X}^A\) 为 CSA 输出经过简化通道注意力 (SCA) 加权后的结果。深度卷积还能补偿不重叠分块导致的边界不连续。
    • 设计动机:FFN 在 NLP 中的作用在视觉任务中尚不明确,且两阶段设计限制了灵活性。gdMLP 通过门控机制融合注意力和前馈计算,减少了复杂度。

损失函数 / 训练策略

  • 使用空间域和频率域的 \(\ell_1\) 损失,在 4 个尺度上同时计算
  • 采用 AdamW 优化器(\(\beta_1 = \beta_2 = 0.9\),weight decay \(10^{-3}\)
  • 渐进式训练:从 \(128 \times 128\)\(256 \times 256\) 再到 \(320 \times 320\),每阶段 200K 迭代
  • 推理时使用 Test-time Local Converter (TLC) 进一步提升性能

实验关键数据

主实验

数据集 指标 Concertormer FFTformer (之前SOTA) 提升
GoPro PSNR/SSIM 34.42/0.971 34.21/0.969 +0.21 dB
HIDE PSNR/SSIM 32.12/0.951 31.62/0.946 +0.50 dB
RealBlur-R PSNR/SSIM 40.78/0.977 40.11/0.973 +0.67 dB
RealBlur-J PSNR/SSIM 33.51/0.945 32.62/0.933 +0.89 dB

在去雨任务上也取得 SOTA:平均 34.60/0.943 (vs Restormer 34.16/0.937)。

消融实验

配置 PSNR SSIM FLOPs(G) 说明
Model 1 (gdMLP baseline) 32.35 0.951 41.22 无自注意力
+Spatial Ripieno 32.58 0.953 - +0.23 dB
+Spatial CSA (R+C) 33.11 0.958 119.34 Concertino 带来 +0.53 dB
+Channel CSA 33.20 0.958 118.33 融合空间+通道
+SCA 33.31 0.959 118.57 +0.11 dB,仅增加 0.2% FLOPs
+CDC (完整模型) 33.53 0.961 116.79 CDC 再提 +0.22 dB
FFN 两阶段设计 31.90 0.945 116.81 比 gdMLP 差 1.6 dB

关键发现

  • 将 Restormer 的转置 SA 替换为 CSA 后,PSNR 在 GoPro 上提升 0.4 dB(32.92→33.32),FLOPs 还降低了 0.5%
  • CDC 使扩散指数(衡量感受野的指标)从 20.51 提升到 39.15,接近翻倍
  • 单阶段 gdMLP 设计比传统两阶段设计高出 1.6 dB PSNR

亮点与洞察

  • 音乐隐喻设计:将注意力分为 Concertino(独奏/全局)和 Ripieno(协奏/局部)的思路直观优雅,类似频域中信号分解为均值+残差
  • 线性复杂度:通过分块计算和通道分割,在不牺牲全局建模能力的前提下实现线性复杂度
  • CDC 的巧妙性:通过在额外维度上引入可学习的线性组合,以极低代价(0.36% FLOPs)显著扩大感受野
  • 单阶段设计:质疑了 FFN 在视觉 Transformer 中的必要性,证明门控 MLP 可以更好地承担这一角色
  • 即插即用:CSA 可以作为模块替换现有方法的自注意力机制(如 Restormer),具有良好的通用性

局限与展望

  • 分块大小 \(k=8\) 是固定的,可以探索自适应分块策略
  • Concertino 的全局平均操作可能对极端非均匀退化不够灵活
  • 多尺度输入需要额外的下采样和卷积,增加了编码端复杂度
  • 论文主要验证了去模糊和去雨任务,对其他复原任务(如超分辨率、去噪等)的验证不够充分

相关工作与启发

  • 与 NAFNet 的 SCA 有联系——都使用简化通道注意力来平衡不同组件
  • Concerto 分解的思想可以推广到其他需要全局-局部建模的任务(如视频理解、3D 点云处理)
  • CDC 中用卷积替代全局均值的做法启发了一种"分层聚合"的注意力设计范式

评分

  • 新颖性: ⭐⭐⭐⭐ Concerto 分解思路新颖,但整体仍在 Transformer 改进范畴内
  • 实验充分度: ⭐⭐⭐⭐⭐ 消融实验极为详尽,包括扩散指数和 LAM 可视化
  • 写作质量: ⭐⭐⭐⭐ 数学推导清晰,但符号繁多需要反复对照
  • 价值: ⭐⭐⭐⭐ CSA 的即插即用特性和线性复杂度使其有较好的实用价值

相关论文