UCAN: Unified Convolutional Attention Network for Expansive Receptive Fields in Lightweight Super-Resolution¶

会议: CVPR 2026
arXiv: 2603.11680
代码: https://github.com/hokiyoshi/UCAN
领域: 图像修复 / 轻量级超分辨率
关键词: 轻量级超分辨率, Hedgehog注意力, 大核蒸馏, 感受野扩展, 参数共享

一句话总结¶

提出 UCAN 轻量级超分辨率网络，统一卷积和注意力机制来高效扩展有效感受野，通过 Hedgehog 注意力解决线性注意力的秩坍缩问题，引入大核蒸馏模块和半共享参数策略，在 Manga109 (4×) 上以仅 48.4G MACs 达到 31.63 dB PSNR。

研究背景与动机¶

领域现状：轻量级 SR 主要通过扩展有效感受野来提升性能。Transformer 方法虽有效但注意力窗口或卷积核扩大显著增加计算成本。
现有痛点：Grid Attention、Mamba 等全局注意力方法仍存在效率问题。线性注意力虽然 \(O(N)\) 但存在秩坍缩导致特征多样性不足。参数共享和蒸馏策略可能同质化特征图。
核心矛盾：扩展感受野与保持轻量级设计之间的固有矛盾；效率与表征丰富性的权衡。
本文目标：在轻量级约束下同时建模局部纹理和全局依赖。
切入角度：用 Hedgehog 特征映射解决线性注意力的秩坍缩，用 Flash Attention 实现大窗口注意力的高效计算。
核心 idea：多层次融合——Flash Attention 处理大窗口局部、Hedgehog Attention 处理全局、大核蒸馏卷积处理空间结构。

方法详解¶

整体框架¶

LR 输入 → 3×3 卷积浅层特征 → 广阔有效感受野组（BERFG，含共享块和接收块）→ 残差连接 → PixelShuffle 重建。BERFG 内含高性能注意力（HPA）、混合注意力（SHA/RHA）和大核蒸馏（LKD）。

关键设计¶

Hedgehog 注意力:
- 功能：在线性复杂度下保持高秩特征表征
- 核心思路：使用 Hedgehog 特征映射（HFM）替代 ReLU/ELU 等简单映射。HFM 拼接 \(m\) 对对称指数特征：\(\phi_H(X) = [\exp(W^\top X + b_1), ..., \exp(-W^\top X - b_m)]\)。对称配对保留了正负方向的信息，避免了 ReLU 丢弃负值和 ELU+1 导致的极端变化。实验中线性注意力 + HFM 恢复秩至 46（满秩 64），远超 ReLU/ELU。
- 设计动机：线性注意力的输出矩阵秩低导致特征被压缩到少数方向，表征多样性不足。HFM 的可训练 MLP 式结构比固定映射更灵活。
半共享机制:
- 功能：在参数共享中保持表征更新
- 核心思路：BERFG 分为共享块（SB）和接收块（RB）。SB 中的共享混合注意力计算完整注意力并缓存 \(A_{qk}^{(a)}, A_{map}^{(a)}\)。RB 中的接收混合注意力直接复用 SB 的 softmax 注意力图，但 Hedgehog 注意力的动态特征映射（\(\phi(Q), \phi(K)\)）在每层独立重新计算。
- 设计动机：完全共享会导致表征同质化，半共享在窗口注意力部分共享（节省计算）、全局注意力部分独立更新（保持多样性）。
大核蒸馏模块（LKD）:
- 功能：以低参数开销扩展空间感受野
- 核心思路：将通道分为细粒度子集 \(F_{fg}\)（\(\max(C/4, 16)\) 通道）和粗粒度子集 \(F_{cg}\)。仅对 \(F_{fg}\) 应用三分支提取（TFE）：通道注意力分支、1×1→3×3→1×1 瓶颈局部分支、和深度可分离+膨胀卷积的层级大核分支。\(F_{cg}\) 直接传递。
- 设计动机：将重计算限制在少量通道上按比例减少计算量，大核路径通过膨胀和深度可分离实现高效扩展感受野。

损失函数 / 训练策略¶

L1 重建损失 + LDL 损失 + Wavelet 损失。Adam (\(\beta_1=0.9, \beta_2=0.99\))，64×64 crop，batch 16。2 × RTX 3090。×2 从头训练 800K 步，×3/×4 从 ×2 微调 400K 步。

实验关键数据¶

主实验¶

方法	Manga109 4× PSNR	参数量	MACs
UCAN-L	31.63	902K	48.4G
MambaIRV2-light	31.24	790K	75.6G
ATD-light	31.48	769K	100.1G
ESC	31.54	968K	149.2G
RCAN	31.22	15592K	917.6G

消融实验¶

配置	Set5 PSNR	Urban100 PSNR	说明
无 HPA	38.27	32.90	缺少大窗口局部注意力
HPA 16×16 窗口	38.32	33.04	默认 32×32 更优
ReLU 映射	38.33	33.16	低秩
Hedgehog 映射	38.34	33.22	高秩，+0.06 dB
完全共享	38.29	32.89	表征同质化
半共享	38.34	33.22	信息更新 +0.33 dB

关键发现¶

UCAN 在 Manga109 (4×) 上比 MambaIRV2 高 0.39 dB，且 MACs 减少 36%
Hedgehog 特征映射恢复秩至 46/64，ReLU 和 ELU 分别仅达 ~20 和 ~30
ERF 可视化显示 UCAN 的有效感受野覆盖范围显著大于 MambaIR/MambaIRv2
LAM 分析表明 UCAN 能聚合更广泛上下文中的重复模式和相似结构

亮点与洞察¶

Hedgehog 注意力解决秩坍缩：用对称指数特征映射恢复线性注意力的秩，直接提升表征多样性
多层次感受野融合：Flash Attention（32×32 局部）+ Hedgehog（全局）+ 大核蒸馏（空间结构），三者互补
极致效率：705K 参数和 38.1G MACs 即达到与 RCAN（15.6M 参数、918G MACs）相当的性能

局限与展望¶

Flash Attention 依赖特定 CUDA 实现，在某些硬件上可能不可用
Hedgehog 特征映射的 \(m\) 对特征对数量需要调优
仅验证了 SR 任务，其他图像修复任务的泛化性待验证

评分¶

新颖性: ⭐⭐⭐⭐ Hedgehog 注意力在 SR 中的首次应用和秩恢复分析
实验充分度: ⭐⭐⭐⭐⭐ 5 个基准 + 3 个尺度 + ERF/LAM 分析 + 详细消融
写作质量: ⭐⭐⭐⭐ 结构清晰，注意力机制分析深入
价值: ⭐⭐⭐⭐ 轻量级 SR 的新 SOTA 方向